Data Science - Matrice di correlazione statistica
Matrice di correlazione
Una matrice è una matrice di numeri disposti in righe e colonne.
Una matrice di correlazione è semplicemente una tabella che mostra i coefficienti di correlazione tra le variabili.
Qui, le variabili sono rappresentate nella prima riga e nella prima colonna:
La tabella sopra ha utilizzato i dati dell'intero set di dati sanitari.
Osservazioni:
- Osserviamo che Duration e Calorie_Burage sono strettamente correlati, con un coefficiente di correlazione di 0,89. Questo ha senso perché più a lungo ci alleniamo, più calorie bruciamo
- Osserviamo che non ci sono quasi relazioni lineari tra Average_Pulse e Calorie_Burage (coefficiente di correlazione di 0,02)
- Possiamo concludere che Average_Pulse non influisca su Calorie_Burage? No. Torneremo più tardi per rispondere a questa domanda!
Matrice di correlazione in Python
Possiamo usare la corr()
funzione in Python per creare una matrice di correlazione. Usiamo anche la round()
funzione per arrotondare l'output a due decimali:
Esempio
Corr_Matrix = round(full_health_data.corr(),2)
print(Corr_Matrix)
Produzione:
Utilizzo di una mappa di calore
Possiamo usare una Heatmap per visualizzare la correlazione tra variabili:
Più il coefficiente di correlazione è vicino a 1, più verdi diventano i quadrati.
Più il coefficiente di correlazione è vicino a -1, più marroni diventano i quadrati.
Usa Seaborn per creare una mappa di calore
Possiamo usare la libreria Seaborn per creare una mappa termica di correlazione (Seaborn è una libreria di visualizzazione basata su matplotlib):
Esempio
import matplotlib.pyplot as plt
import seaborn as sns
correlation_full_health =
full_health_data.corr()
axis_corr = sns.heatmap(
correlation_full_health,
vmin=-1, vmax=1, center=0,
cmap=sns.diverging_palette(50,
500, n=500),
square=True
)
plt.show()
Esempio spiegato:
- Importa la libreria seaborn come sns.
- Usa il set di dati_stato_completo.
- Usa sns.heatmap() per dire a Python che vogliamo una mappa di calore per visualizzare la matrice di correlazione.
- Usa la matrice di correlazione. Definire i valori massimi e minimi della heatmap. Definisci che 0 è il centro.
- Definisci i colori con sns.diverging_palette. n=500 significa che vogliamo 500 tipi di colore nella stessa tavolozza di colori.
- square = True significa che vogliamo vedere i quadrati.