Data Science - Matrice di correlazione statistica


Matrice di correlazione

Una matrice è una matrice di numeri disposti in righe e colonne.

Una matrice di correlazione è semplicemente una tabella che mostra i coefficienti di correlazione tra le variabili.

Qui, le variabili sono rappresentate nella prima riga e nella prima colonna:

Matrice di correlazione

La tabella sopra ha utilizzato i dati dell'intero set di dati sanitari.

Osservazioni:

  • Osserviamo che Duration e Calorie_Burage sono strettamente correlati, con un coefficiente di correlazione di 0,89. Questo ha senso perché più a lungo ci alleniamo, più calorie bruciamo
  • Osserviamo che non ci sono quasi relazioni lineari tra Average_Pulse e Calorie_Burage (coefficiente di correlazione di 0,02)
  • Possiamo concludere che Average_Pulse non influisca su Calorie_Burage? No. Torneremo più tardi per rispondere a questa domanda!

Matrice di correlazione in Python

Possiamo usare la corr()funzione in Python per creare una matrice di correlazione. Usiamo anche la round()funzione per arrotondare l'output a due decimali:

Esempio

Corr_Matrix = round(full_health_data.corr(),2)
print(Corr_Matrix)

Produzione:

Matrice di correlazione

Utilizzo di una mappa di calore

Possiamo usare una Heatmap per visualizzare la correlazione tra variabili:

Heatmap di correlazione

Più il coefficiente di correlazione è vicino a 1, più verdi diventano i quadrati.

Più il coefficiente di correlazione è vicino a -1, più marroni diventano i quadrati.


Usa Seaborn per creare una mappa di calore

Possiamo usare la libreria Seaborn per creare una mappa termica di correlazione (Seaborn è una libreria di visualizzazione basata su matplotlib):

Esempio

import matplotlib.pyplot as plt
import seaborn as sns

correlation_full_health = full_health_data.corr()

axis_corr = sns.heatmap(
correlation_full_health,
vmin=-1, vmax=1, center=0,
cmap=sns.diverging_palette(50, 500, n=500),
square=True
)

plt.show()

Esempio spiegato:

  • Importa la libreria seaborn come sns.
  • Usa il set di dati_stato_completo.
  • Usa sns.heatmap() per dire a Python che vogliamo una mappa di calore per visualizzare la matrice di correlazione.
  • Usa la matrice di correlazione. Definire i valori massimi e minimi della heatmap. Definisci che 0 è il centro.
  • Definisci i colori con sns.diverging_palette. n=500 significa che vogliamo 500 tipi di colore nella stessa tavolozza di colori.
  • square = True significa che vogliamo vedere i quadrati.