Scienza dei dati - Tabella di regressione: R-quadrato
R - Squadrato
R-Squared e Adjusted R-Squared descrive quanto bene il modello di regressione lineare si adatta ai punti dati:
Il valore di R-Squared è sempre compreso tra 0 e 1 (da 0% a 100%).
- Un valore R-Squadrato elevato significa che molti punti dati sono vicini alla linea della funzione di regressione lineare.
- Un valore R-Squared basso significa che la linea della funzione di regressione lineare non si adatta bene ai dati.
Esempio visivo di un valore R basso - al quadrato (0,00)
Il nostro modello di regressione mostra un valore R-quadrato pari a zero, il che significa che la linea della funzione di regressione lineare non si adatta bene ai dati.
Questo può essere visualizzato quando tracciamo la funzione di regressione lineare attraverso i punti dati di Average_Pulse e Calorie_Burage.
Esempio visivo di un valore R alto al quadrato (0,79)
Tuttavia, se tracciamo Duration e Calorie_Burage , l'R-Squared aumenta. Qui, vediamo che i punti dati sono vicini alla retta della funzione di regressione lineare:
Ecco il codice in Python:
Esempio
import pandas as pd
import matplotlib.pyplot as plt
from scipy
import stats
full_health_data = pd.read_csv("data.csv", header=0, sep=",")
x = full_health_data["Duration"]
y =
full_health_data ["Calorie_Burnage"]
slope, intercept, r, p, std_err =
stats.linregress(x, y)
def myfunc(x):
return slope * x + intercept
mymodel = list(map(myfunc, x))
print(mymodel)
plt.scatter(x,
y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0,
xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")
plt.show()
Riepilogo - Previsione di Calorie_Burnage con Average_Pulse
Come possiamo riassumere la funzione di regressione lineare con Average_Pulse come variabile esplicativa?
- Coefficiente di 0,3296, il che significa che Average_Pulse ha un effetto molto piccolo su Calorie_Burage.
- Valore P elevato (0,824), il che significa che non possiamo concludere una relazione tra Average_Pulse e Calorie_Burage.
- R-valore quadrato di 0, il che significa che la linea della funzione di regressione lineare non si adatta bene ai dati.