Scienza dei dati - Correlazione statistica vs. causalità


La correlazione non implica causalità

La correlazione misura la relazione numerica tra due variabili.

Un alto coefficiente di correlazione (vicino a 1), non significa che si possa con certezza concludere una relazione effettiva tra due variabili.

Un classico esempio:

  • Durante l'estate aumenta la vendita di gelato in spiaggia
  • Allo stesso tempo, aumentano anche gli incidenti di annegamento

Questo significa che l'aumento delle vendite di gelati è una causa diretta di un aumento degli incidenti di annegamento?


L'esempio della spiaggia in Python

Qui, abbiamo costruito un set di dati fittizio da provare:

Esempio

import pandas as pd
import matplotlib.pyplot as plt

Drowning_Accident = [20,40,60,80,100,120,140,160,180,200]
Ice_Cream_Sale = [20,40,60,80,100,120,140,160,180,200]
Drowning = {"Drowning_Accident": [20,40,60,80,100,120,140,160,180,200],
"Ice_Cream_Sale": [20,40,60,80,100,120,140,160,180,200]}
Drowning = pd.DataFrame(data=Drowning)

Drowning.plot(x="Ice_Cream_Sale", y="Drowning_Accident", kind="scatter")
plt.show()

correlation_beach = Drowning.corr()
print(correlation_beach)

Produzione:

Correlazione vs. causalità

Correlazione vs causalità: l'esempio della spiaggia

In altre parole: possiamo usare la vendita del gelato per prevedere gli incidenti di annegamento?

La risposta è - Probabilmente no.

È probabile che queste due variabili siano accidentalmente correlate tra loro.

Quali sono le cause dell'annegamento allora?

  • Nuotatori inesperti
  • Onde
  • Crampo
  • Disturbi convulsivi
  • Mancanza di supervisione
  • Uso (cattivo) di alcol
  • eccetera.

Invertiamo l'argomento:

Un basso coefficiente di correlazione (vicino a zero) significa che la variazione di x non influisce su y?

Torna alla domanda:

  • Possiamo concludere che Average_Pulse non influisca su Calorie_Burage a causa di un basso coefficiente di correlazione?

La risposta è no.

C'è una differenza importante tra correlazione e causalità:

  • La correlazione è un numero che misura quanto strettamente sono correlati i dati
  • La causalità è la conclusione che x causa y.

È quindi importante riflettere criticamente sul concetto di causalità quando facciamo previsioni!