Set di dati R
Insieme di dati
Un set di dati è una raccolta di dati, spesso presentati in una tabella.
C'è un popolare set di dati integrato in R chiamato " mtcars " (Motor Trend Car Road Tests), che viene recuperato dal Motor Trend US Magazine del 1974.
Negli esempi seguenti (e per i prossimi capitoli), utilizzeremo il mtcars
set di dati, a fini statistici:
Esempio
# Print the mtcars data set
mtcars
Risultato:
mpg cyl disp hp drat wt qsec vs am gear carb Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4 Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4 Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1 Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1 Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2 Valiant 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1 Duster 360 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4 Merc 240D 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2 Merc 230 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2 Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 Merc 280C 17.8 6 167.6 123 3.92 3.440 18.90 1 0 4 4 Merc 450SE 16.4 8 275.8 180 3.07 4.070 17.40 0 0 3 3 Merc 450SL 17.3 8 275.8 180 3.07 3.730 17.60 0 0 3 3 Merc 450SLC 15.2 8 275.8 180 3.07 3.780 18.00 0 0 3 3 Cadillac Fleetwood 10.4 8 472.0 205 2.93 5.250 17.98 0 0 3 4 Lincoln Continental 10.4 8 460.0 215 3.00 5.424 17.82 0 0 3 4 Chrysler Imperial 14.7 8 440.0 230 3.23 5.345 17.42 0 0 3 4 Fiat 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1 Honda Civic 30.4 4 75.7 52 4.93 1.615 18.52 1 1 4 2 Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1 Toyota Corona 21.5 4 120.1 97 3.70 2.465 20.01 1 0 3 1 Dodge Challenger 15.5 8 318.0 150 2.76 3.520 16.87 0 0 3 2 AMC Javelin 15.2 8 304.0 150 3.15 3.435 17.30 0 0 3 2 Camaro Z28 13.3 8 350.0 245 3.73 3.840 15.41 0 0 3 4 Pontiac Firebird 19.2 8 400.0 175 3.08 3.845 17.05 0 0 3 2 Fiat X1-9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1 Porsche 914-2 26.0 4 120.3 91 4.43 2.140 16.70 0 1 5 2 Lotus Europa 30.4 4 95.1 113 3.77 1.513 16.90 1 1 5 2 Ford Pantera L 15.8 8 351.0 264 4.22 3.170 14.50 0 1 5 4 Ferrari Dino 19.7 6 145.0 175 3.62 2.770 15.50 0 1 5 6 Maserati Bora 15.0 8 301.0 335 3.54 3.570 14.60 0 1 5 8 Volvo 142E 21.4 4 121.0 109 4.11 2.780 18.60 1 1 4 2
Informazioni sul set di dati
È possibile utilizzare il punto interrogativo ( ?
) per ottenere informazioni sul mtcars
set di dati:
Esempio
# Use the question mark to get information about
the data set
?mtcars
Risultato:
mtcars {set di dati} | Documentazione R |
Test su strada per auto di tendenza motoria
Descrizione
I dati sono stati estratti dalla rivista americana Motor Trend del 1974 e comprendono il consumo di carburante e 10 aspetti del design e delle prestazioni automobilistiche per 32 automobili (modelli 1973-74).
Utilizzo
mtcars
Formato
Un frame di dati con 32 osservazioni su 11 variabili (numeriche).
[, 1] | mpg | Miglia/(US) galloni |
[, 2] | cil | Numero di cilindri |
[, 3] | disp | Spostamento (cu.in.) |
[, 4] | hp | Potenza lorda |
[, 5] | datto | Rapporto al ponte posteriore |
[, 6] | peso | Peso (1000 libbre) |
[, 7] | qsec | Tempo di 1/4 di miglio |
[, 8] | contro | Motore (0 = a forma di V, 1 = dritto) |
[, 9] | sono | Cambio (0 = automatico, 1 = manuale) |
[,10] | Ingranaggio | Numero di marce avanti |
[,11] | carboidrati | Numero di carburatori |
Nota
Henderson e Velleman (1981) commentano in una nota a piè di pagina alla tabella 1: "La codifica non cruciale di Hocking [trascrittore originale] del motore rotativo della Mazda come motore a sei cilindri in linea e del motore piatto della Porsche come motore a V, così come il inclusione del diesel Mercedes 240D, sono stati mantenuti per consentire confronti diretti da effettuare con le analisi precedenti.'
Fonte
Henderson e Velleman (1981), Costruire modelli di regressione multipli in modo interattivo. Biometria , 37 , 391-411.
Esempi
require(graphics) pairs(mtcars, main = "mtcars data", gap = 1/4) coplot(mpg ~ disp | as.factor(cyl), data = mtcars, panel = panel.smooth, rows = 1) ## possibly more meaningful, e.g., for summary() or bivariate plots: mtcars2 <- within(mtcars, { vs <- factor(vs, labels = c("V", "S")) am <- factor(am, labels = c("automatic", "manual")) cyl <- ordered(cyl) gear <- ordered(gear) carb <- ordered(carb) }) summary(mtcars2)
Ottenere informazioni
Utilizzare la dim()
funzione per trovare le dimensioni del set di dati e la names()
funzione per visualizzare i nomi delle variabili:
Esempio
Data_Cars <- mtcars # create a variable of the mtcars data set for better
organization
# Use dim() to find the dimension of the data set
dim(Data_Cars)
# Use names() to find the names of the variables from
the data set
names(Data_Cars)
Risultato:
[1] 32 11 [1] "mpg" "cyl" "disp" "hp" "drat" "wt" "qsec" "vs" "am" "gear" [11] "carb"
Usa la rownames()
funzione per ottenere il nome di ogni riga nella prima colonna, che è il nome di ogni auto:
Esempio
Data_Cars <- mtcars
rownames(Data_Cars)
Risultato:
[1] "Mazda RX4" "Mazda RX4 Wag" "Datsun 710" [4] "Hornet 4 Drive" "Hornet Sportabout" "Valiant" [7] "Duster 360" "Merc 240D" "Merc 230" [10] "Merc 280" "Merc 280C" "Merc 450SE" [13] "Merc 450SL" "Merc 450SLC" "Cadillac Fleetwood" [16] "Lincoln Continental" "Chrysler Imperial" "Fiat 128" [19] "Honda Civic" "Toyota Corolla" "Toyota Corona" [22] "Dodge Challenger" "AMC Javelin" "Camaro Z28" [25] "Pontiac Firebird" "Fiat X1-9" "Porsche 914-2" [28] "Lotus Europa" "Ford Pantera L" "Ferrari Dino" [31] "Maserati Bora" "Volvo 142E"
Dagli esempi sopra, abbiamo scoperto che il set di dati ha 32 osservazioni (Mazda RX4, Mazda RX4 Wag, Datsun 710, ecc.) e 11 variabili (mpg, cyl, disp, ecc.).
Una variabile è definita come qualcosa che può essere misurato o contato.
Ecco una breve spiegazione delle variabili dal set di dati mtcars:
Nome variabile | Descrizione |
---|---|
mpg | Miglia/gallone (americano). |
cil | Numero di cilindri |
disp | Dislocamento |
hp | Potenza lorda |
datto | Rapporto al ponte posteriore |
peso | Peso (1000 libbre) |
qsec | Tempo di 1/4 di miglio |
contro | Motore (0 = a forma di V, 1 = dritto) |
sono | Cambio (0 = automatico, 1 = manuale) |
Ingranaggio | Numero di marce avanti |
carboidrati | Numero di carburatori |
Stampa valori variabili
Se vuoi stampare tutti i valori che appartengono ad una variabile, accedi al data frame utilizzando il $
segno e il nome della variabile (ad esempio cyl
(cilindri)):
Esempio
Data_Cars <- mtcars
Data_Cars$cyl
Risultato:
[1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4 8 8 8 8 4 4 4 8 6 8 4
Ordina i valori delle variabili
Per ordinare i valori, utilizzare la sort()
funzione:
Esempio
Data_Cars <- mtcars
sort(Data_Cars$cyl)
Risultato:
[1] 4 4 4 4 4 4 4 4 4 4 4 6 6 6 6 6 6 6 8 8 8 8 8 8 8 8 8 8 8 8 8 8
Dagli esempi sopra, vediamo che la maggior parte delle auto ha 4 e 8 cilindri.
Analizzare i dati
Ora che abbiamo alcune informazioni sul set di dati, possiamo iniziare ad analizzarlo con alcuni numeri statistici.
Ad esempio, possiamo utilizzare la summary()
funzione per ottenere un riepilogo statistico dei dati:
Esempio
Data_Cars <- mtcars
summary(Data_Cars)
Non preoccuparti se non capisci i numeri di output. Li padroneggerai a breve.
La summary()
funzione restituisce sei numeri statistici per ogni variabile:
- min
- Primo quantile (percentile)
- Mediano
- Significare
- Terzo quantile (percentile)
- Massimo
Li tratteremo tutti, insieme ad altri numeri statistici nei prossimi capitoli.