Scienza dei dati - Correlazione statistica vs. causalità
La correlazione non implica causalità
La correlazione misura la relazione numerica tra due variabili.
Un alto coefficiente di correlazione (vicino a 1), non significa che si possa con certezza concludere una relazione effettiva tra due variabili.
Un classico esempio:
- Durante l'estate aumenta la vendita di gelato in spiaggia
- Allo stesso tempo, aumentano anche gli incidenti di annegamento
Questo significa che l'aumento delle vendite di gelati è una causa diretta di un aumento degli incidenti di annegamento?
L'esempio della spiaggia in Python
Qui, abbiamo costruito un set di dati fittizio da provare:
Esempio
import pandas as pd
import matplotlib.pyplot as plt
Drowning_Accident = [20,40,60,80,100,120,140,160,180,200]
Ice_Cream_Sale =
[20,40,60,80,100,120,140,160,180,200]
Drowning = {"Drowning_Accident":
[20,40,60,80,100,120,140,160,180,200],
"Ice_Cream_Sale":
[20,40,60,80,100,120,140,160,180,200]}
Drowning = pd.DataFrame(data=Drowning)
Drowning.plot(x="Ice_Cream_Sale", y="Drowning_Accident", kind="scatter")
plt.show()
correlation_beach = Drowning.corr()
print(correlation_beach)
Produzione:
Correlazione vs causalità: l'esempio della spiaggia
In altre parole: possiamo usare la vendita del gelato per prevedere gli incidenti di annegamento?
La risposta è - Probabilmente no.
È probabile che queste due variabili siano accidentalmente correlate tra loro.
Quali sono le cause dell'annegamento allora?
- Nuotatori inesperti
- Onde
- Crampo
- Disturbi convulsivi
- Mancanza di supervisione
- Uso (cattivo) di alcol
- eccetera.
Invertiamo l'argomento:
Un basso coefficiente di correlazione (vicino a zero) significa che la variazione di x non influisce su y?
Torna alla domanda:
- Possiamo concludere che Average_Pulse non influisca su Calorie_Burage a causa di un basso coefficiente di correlazione?
La risposta è no.
C'è una differenza importante tra correlazione e causalità:
- La correlazione è un numero che misura quanto strettamente sono correlati i dati
- La causalità è la conclusione che x causa y.
È quindi importante riflettere criticamente sul concetto di causalità quando facciamo previsioni!