Panda - Correlazioni di dati


Trovare relazioni

Un grande aspetto del modulo Pandas è il corr()metodo.

Il corr()metodo calcola la relazione tra ciascuna colonna nel set di dati.

Gli esempi in questa pagina utilizzano un file CSV chiamato: 'data.csv'.

Scarica data.csv . o Apri data.csv

Esempio

Mostra la relazione tra le colonne:

df.corr()

Risultato

            Duration     Pulse  Maxpulse  Calories
  Duration  1.000000 -0.155408  0.009403  0.922721
  Pulse    -0.155408  1.000000  0.786535  0.025120
  Maxpulse  0.009403  0.786535  1.000000  0.203814
  Calories  0.922721  0.025120  0.203814  1.000000

Nota: il corr()metodo ignora le colonne "non numeriche".

Risultato spiegato

Il Risultato del corr()metodo è una tabella con molti numeri che rappresenta quanto è buona la relazione tra due colonne.

Il numero varia da -1 a 1.

1 significa che esiste una relazione 1 a 1 (una correlazione perfetta) e per questo set di dati, ogni volta che un valore aumentava nella prima colonna, aumentava anche l'altra.

0,9 è anche un buon rapporto e se aumenti un valore, probabilmente aumenterà anche l'altro.

-0,9 sarebbe un buon rapporto come 0,9, ma se aumenti un valore, l'altro probabilmente diminuirà.

0.2 significa NON una buona relazione, il che significa che se un valore sale non significa che l'altro lo farà.

Qual è una buona correlazione? Dipende dall'uso, ma penso che sia sicuro dire che devi avere almeno 0.6(o -0.6) per chiamarlo una buona correlazione.

Perfetta correlazione:

Possiamo vedere che "Durata" e "Durata" hanno il numero 1.000000, il che ha senso, ogni colonna ha sempre una relazione perfetta con se stessa.

Buona correlazione:

"Durata" e "Calorie" hanno una 0.922721correlazione, che è un'ottima correlazione, e possiamo prevedere che più a lungo ti alleni, più calorie bruci e viceversa: se hai bruciato molte calorie, probabilmente ha avuto un lungo lavoro.

Cattiva correlazione:

"Durata" e "Maxpulse" hanno una 0.009403correlazione, che è una pessima correlazione, il che significa che non possiamo prevedere l'impulso massimo semplicemente guardando la durata dell'allenamento e viceversa.


Mettiti alla prova con gli esercizi

Esercizio:

Inserisci una sintassi corretta per trovare le relazioni tra le colonne in un DataFrame.

df.()


w3schools CERTIFIED . 2021

Ottieni la certificazione!

Completa i moduli Pandas, fai gli esercizi, sostieni l'esame e diventerai certificato w3schools!

ISCRIVITI A $10