Scienza dei dati - Varianza statistica


Varianza

La varianza è un altro numero che indica quanto sono distribuiti i valori.

Infatti, se prendi la radice quadrata della varianza, ottieni la deviazione standard. O viceversa, se moltiplichi la deviazione standard per se stessa, ottieni la varianza!

Utilizzeremo prima il set di dati con 10 osservazioni per fornire un esempio di come possiamo calcolare la varianza:

Durata Impulso_medio Impulso_max Calorie_Bruciate Ore_Lavoro Ore_Sonno
30 80 120 240 10 7
30 85 120 250 10 7
45 90 130 260 8 7
45 95 130 270 8 7
45 100 140 280 0 7
60 105 140 290 7 8
60 110 145 300 7 8
60 115 145 310 8 8
75 120 150 320 0 8
75 125 150 330 8 8

La varianza è spesso rappresentata dal simbolo Sigma Square: σ^2


Passaggio 1 per calcolare la varianza: trova la media

Vogliamo trovare la varianza di Average_Pulse.

1. Trova la media:

(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5

La media è 102,5


Passaggio 2: per ogni valore: trova la differenza dalla media

2. Trova la differenza dalla media per ogni valore:

80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 = -7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 - 102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5

Passaggio 3: per ogni differenza: trova il valore quadrato

3. Trova il valore quadrato per ogni differenza:

(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 = 56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25

Nota: dobbiamo quadrare i valori per ottenere lo spread totale.



Passaggio 4: la varianza è il numero medio di questi valori al quadrato

4. Somma i valori al quadrato e trova la media:

(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 + 506.25) / 10 = 206.25

La varianza è 206,25.


Usa Python per trovare la varianza di health_data

Possiamo usare la var()funzione di Numpy per trovare la varianza (ricorda che ora utilizziamo il primo set di dati con 10 osservazioni):

Esempio

import numpy as np

var = np.var(health_data)
print(var)

Il risultato:

Varianza

Usa Python per trovare la varianza del set di dati completo

Qui calcoliamo la varianza per ciascuna colonna per l'intero set di dati:

Esempio

import numpy as np

var_full = np.var(full_health_data)
print(var_full)

Il risultato:

Varianza