Data Science - Tabella di regressione: valore P


Le "statistiche della parte dei coefficienti" nella tabella di regressione

Tabella di regressione - Statistiche dei coefficienti

Ora, vogliamo verificare se i coefficienti della funzione di regressione lineare hanno un impatto significativo sulla variabile dipendente (Caloria_Burgia).

Ciò significa che vogliamo dimostrare che esiste una relazione tra Average_Pulse e Calorie_Burage, utilizzando test statistici.

Ci sono quattro componenti che spiegano la statistica dei coefficienti:

  • std err sta per Errore standard
  • t è il "valore t" dei coefficienti
  • P>|t| è chiamato "valore P"
  •  [0,025 0,975] rappresenta l'intervallo di confidenza dei coefficienti

Ci concentreremo sulla comprensione del "valore P" in questo modulo.


Il valore P

Il valore P è un numero statistico per concludere se esiste una relazione tra Average_Pulse e Calorie_Burage.

Verifichiamo se il vero valore del coefficiente è uguale a zero (nessuna relazione). Il test statistico per questo è chiamato test di ipotesi.

  • Un valore P basso (< 0,05) significa che è probabile che il coefficiente non sia uguale a zero.
  • Un valore P elevato (> 0,05) significa che non possiamo concludere che la variabile esplicativa influisca sulla variabile dipendente (qui: se Average_Pulse influisce su Calorie_Burage).
  • Un valore P elevato è anche chiamato valore P insignificante.

Controllo di un'ipotesi

Il test di ipotesi è una procedura statistica per verificare se i risultati sono validi.

Nel nostro esempio, stiamo verificando se il vero coefficiente di Average_Pulse e l'intercetta è uguale a zero.

Il test di ipotesi ha due affermazioni. L'ipotesi nulla e l'ipotesi alternativa.

  • L'ipotesi nulla può essere scritta brevemente come H0
  • L'ipotesi alternativa può essere scritta brevemente come HA

Scritto matematicamente:

H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept = 0
HA: Intercept ≠ 0

Il segno ≠ significa "non uguale a"


Test di ipotesi e valore P

L'ipotesi nulla può essere rifiutata o meno.

Se rifiutiamo l'ipotesi nulla, concludiamo che esiste una relazione tra Average_Pulse e Calorie_Burage. Il valore P viene utilizzato per questa conclusione.

Una soglia comune del valore P è 0,05.

Nota: un valore P di 0,05 significa che il 5% delle volte rifiuteremo erroneamente l'ipotesi nulla. Significa che accettiamo che il 5% delle volte potremmo aver concluso falsamente una relazione.

Se il valore P è inferiore a 0,05, possiamo rifiutare l'ipotesi nulla e concludere che esiste una relazione tra le variabili.

Tuttavia, il valore P di Average_Pulse è 0,824. Quindi, non possiamo concludere una relazione tra Average_Pulse e Calorie_ Burnage.

Significa che c'è una probabilità dell'82,4% che il vero coefficiente di Average_Pulse sia zero.

L'intercetta viene utilizzata per regolare la capacità della funzione di regressione di prevedere in modo più preciso. È quindi raro interpretare il valore P dell'intercetta.