Panda - Correlazioni di dati
Trovare relazioni
Un grande aspetto del modulo Pandas è il corr()
metodo.
Il corr()
metodo calcola la relazione tra ciascuna colonna nel set di dati.
Gli esempi in questa pagina utilizzano un file CSV chiamato: 'data.csv'.
Scarica data.csv . o Apri data.csv
Esempio
Mostra la relazione tra le colonne:
df.corr()
Risultato
Duration Pulse Maxpulse Calories Duration 1.000000 -0.155408 0.009403 0.922721 Pulse -0.155408 1.000000 0.786535 0.025120 Maxpulse 0.009403 0.786535 1.000000 0.203814 Calories 0.922721 0.025120 0.203814 1.000000
Nota:
il corr()
metodo ignora le colonne "non numeriche".
Risultato spiegato
Il Risultato del corr()
metodo è una tabella con molti numeri che rappresenta quanto è buona la relazione tra due colonne.
Il numero varia da -1 a 1.
1 significa che esiste una relazione 1 a 1 (una correlazione perfetta) e per questo set di dati, ogni volta che un valore aumentava nella prima colonna, aumentava anche l'altra.
0,9 è anche un buon rapporto e se aumenti un valore, probabilmente aumenterà anche l'altro.
-0,9 sarebbe un buon rapporto come 0,9, ma se aumenti un valore, l'altro probabilmente diminuirà.
0.2 significa NON una buona relazione, il che significa che se un valore sale non significa che l'altro lo farà.
Qual è una buona correlazione?
Dipende dall'uso, ma penso che sia sicuro dire che devi avere almeno 0.6
(o -0.6
) per chiamarlo una buona correlazione.
Perfetta correlazione:
Possiamo vedere che "Durata" e "Durata" hanno il numero 1.000000
, il che ha senso, ogni colonna ha sempre una relazione perfetta con se stessa.
Buona correlazione:
"Durata" e "Calorie" hanno una 0.922721
correlazione, che è un'ottima correlazione, e possiamo prevedere che più a lungo ti alleni, più calorie bruci e viceversa: se hai bruciato molte calorie, probabilmente ha avuto un lungo lavoro.
Cattiva correlazione:
"Durata" e "Maxpulse" hanno una 0.009403
correlazione, che è una pessima correlazione, il che significa che non possiamo prevedere l'impulso massimo semplicemente guardando la durata dell'allenamento e viceversa.
Ottieni la certificazione!
ISCRIVITI A $10