Scienza dei dati - Tabella di regressione: R-quadrato


R - Squadrato

R-Squared e Adjusted R-Squared descrive quanto bene il modello di regressione lineare si adatta ai punti dati:

Tabella di regressione - Statistiche dei coefficienti

Il valore di R-Squared è sempre compreso tra 0 e 1 (da 0% a 100%).

  • Un valore R-Squadrato elevato significa che molti punti dati sono vicini alla linea della funzione di regressione lineare.
  • Un valore R-Squared basso significa che la linea della funzione di regressione lineare non si adatta bene ai dati.

Esempio visivo di un valore R basso - al quadrato (0,00)

Il nostro modello di regressione mostra un valore R-quadrato pari a zero, il che significa che la linea della funzione di regressione lineare non si adatta bene ai dati.

Questo può essere visualizzato quando tracciamo la funzione di regressione lineare attraverso i punti dati di Average_Pulse e Calorie_Burage.

R basso - Valore al quadrato (0,00)

Esempio visivo di un valore R alto al quadrato (0,79)

Tuttavia, se tracciamo Duration e Calorie_Burage , l'R-Squared aumenta. Qui, vediamo che i punti dati sono vicini alla retta della funzione di regressione lineare:

R basso - Valore al quadrato (0,00)

Ecco il codice in Python:

Esempio

import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

full_health_data = pd.read_csv("data.csv", header=0, sep=",")

x = full_health_data["Duration"]
y = full_health_data ["Calorie_Burnage"]

slope, intercept, r, p, std_err = stats.linregress(x, y)

def myfunc(x):
 return slope * x + intercept

mymodel = list(map(myfunc, x))

print(mymodel)

plt.scatter(x, y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0, xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")

plt.show()

Riepilogo - Previsione di Calorie_Burnage con Average_Pulse

Come possiamo riassumere la funzione di regressione lineare con Average_Pulse come variabile esplicativa?

  • Coefficiente di 0,3296, il che significa che Average_Pulse ha un effetto molto piccolo su Calorie_Burage.
  • Valore P elevato (0,824), il che significa che non possiamo concludere una relazione tra Average_Pulse e Calorie_Burage.
  • R-valore quadrato di 0, il che significa che la linea della funzione di regressione lineare non si adatta bene ai dati.