Data Science - Tabella di regressione: valore P
Le "statistiche della parte dei coefficienti" nella tabella di regressione
Ora, vogliamo verificare se i coefficienti della funzione di regressione lineare hanno un impatto significativo sulla variabile dipendente (Caloria_Burgia).
Ciò significa che vogliamo dimostrare che esiste una relazione tra Average_Pulse e Calorie_Burage, utilizzando test statistici.
Ci sono quattro componenti che spiegano la statistica dei coefficienti:
- std err sta per Errore standard
- t è il "valore t" dei coefficienti
- P>|t| è chiamato "valore P"
- [0,025 0,975] rappresenta l'intervallo di confidenza dei coefficienti
Ci concentreremo sulla comprensione del "valore P" in questo modulo.
Il valore P
Il valore P è un numero statistico per concludere se esiste una relazione tra Average_Pulse e Calorie_Burage.
Verifichiamo se il vero valore del coefficiente è uguale a zero (nessuna relazione). Il test statistico per questo è chiamato test di ipotesi.
- Un valore P basso (< 0,05) significa che è probabile che il coefficiente non sia uguale a zero.
- Un valore P elevato (> 0,05) significa che non possiamo concludere che la variabile esplicativa influisca sulla variabile dipendente (qui: se Average_Pulse influisce su Calorie_Burage).
- Un valore P elevato è anche chiamato valore P insignificante.
Controllo di un'ipotesi
Il test di ipotesi è una procedura statistica per verificare se i risultati sono validi.
Nel nostro esempio, stiamo verificando se il vero coefficiente di Average_Pulse e l'intercetta è uguale a zero.
Il test di ipotesi ha due affermazioni. L'ipotesi nulla e l'ipotesi alternativa.
- L'ipotesi nulla può essere scritta brevemente come H0
- L'ipotesi alternativa può essere scritta brevemente come HA
Scritto matematicamente:
H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept =
0
HA: Intercept ≠ 0
Il segno ≠ significa "non uguale a"
Test di ipotesi e valore P
L'ipotesi nulla può essere rifiutata o meno.
Se rifiutiamo l'ipotesi nulla, concludiamo che esiste una relazione tra Average_Pulse e Calorie_Burage. Il valore P viene utilizzato per questa conclusione.
Una soglia comune del valore P è 0,05.
Nota: un valore P di 0,05 significa che il 5% delle volte rifiuteremo erroneamente l'ipotesi nulla. Significa che accettiamo che il 5% delle volte potremmo aver concluso falsamente una relazione.
Se il valore P è inferiore a 0,05, possiamo rifiutare l'ipotesi nulla e concludere che esiste una relazione tra le variabili.
Tuttavia, il valore P di Average_Pulse è 0,824. Quindi, non possiamo concludere una relazione tra Average_Pulse e Calorie_ Burnage.
Significa che c'è una probabilità dell'82,4% che il vero coefficiente di Average_Pulse sia zero.
L'intercetta viene utilizzata per regolare la capacità della funzione di regressione di prevedere in modo più preciso. È quindi raro interpretare il valore P dell'intercetta.