Data Science - Deviazione standard statistica
Deviazione standard
La deviazione standard è un numero che descrive quanto sono distribuite le osservazioni.
Una funzione matematica avrà difficoltà a prevedere valori precisi, se le osservazioni sono "diffuse". La deviazione standard è una misura dell'incertezza.
Una deviazione standard bassa significa che la maggior parte dei numeri è vicina al valore medio (medio).
Una deviazione standard elevata significa che i valori sono distribuiti su un intervallo più ampio.
La deviazione standard è spesso rappresentata dal simbolo Sigma: σ
Possiamo usare la std()
funzione di Numpy per trovare la deviazione standard di una variabile:
Esempio
import numpy as np
std = np.std(full_health_data)
print(std)
Il risultato:
Cosa significano questi numeri?
Coefficiente di variazione
Il coefficiente di variazione viene utilizzato per avere un'idea di quanto sia grande la deviazione standard.
Matematicamente, il coefficiente di variazione è definito come:
Coefficient of Variation = Standard Deviation / Mean
Possiamo farlo in Python se procediamo con il seguente codice:
Esempio
import numpy as np
cv = np.std(full_health_data) / np.mean(full_health_data)
print(cv)
Il risultato:
Vediamo che le variabili Duration, Calorie_Burage e Hours_Work hanno una deviazione standard elevata rispetto a Max_Pulse, Average_Pulse e Hours_Sleep.