Set di dati R


Insieme di dati

Un set di dati è una raccolta di dati, spesso presentati in una tabella.

C'è un popolare set di dati integrato in R chiamato " mtcars " (Motor Trend Car Road Tests), che viene recuperato dal Motor Trend US Magazine del 1974.

Negli esempi seguenti (e per i prossimi capitoli), utilizzeremo il mtcars set di dati, a fini statistici:

Esempio

# Print the mtcars data set
mtcars

Risultato:

                     mpg cyl  disp  hp drat    wt  qsec vs am gear carb
Mazda RX4           21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4
Mazda RX4 Wag       21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4
Datsun 710          22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1
Hornet 4 Drive      21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1
Hornet Sportabout   18.7   8 360.0 175 3.15 3.440 17.02  0  0    3    2
Valiant             18.1   6 225.0 105 2.76 3.460 20.22  1  0    3    1
Duster 360          14.3   8 360.0 245 3.21 3.570 15.84  0  0    3    4
Merc 240D           24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2
Merc 230            22.8   4 140.8  95 3.92 3.150 22.90  1  0    4    2
Merc 280            19.2   6 167.6 123 3.92 3.440 18.30  1  0    4    4
Merc 280C           17.8   6 167.6 123 3.92 3.440 18.90  1  0    4    4
Merc 450SE          16.4   8 275.8 180 3.07 4.070 17.40  0  0    3    3
Merc 450SL          17.3   8 275.8 180 3.07 3.730 17.60  0  0    3    3
Merc 450SLC         15.2   8 275.8 180 3.07 3.780 18.00  0  0    3    3
Cadillac Fleetwood  10.4   8 472.0 205 2.93 5.250 17.98  0  0    3    4
Lincoln Continental 10.4   8 460.0 215 3.00 5.424 17.82  0  0    3    4
Chrysler Imperial   14.7   8 440.0 230 3.23 5.345 17.42  0  0    3    4
Fiat 128            32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
Honda Civic         30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
Toyota Corolla      33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
Toyota Corona       21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1
Dodge Challenger    15.5   8 318.0 150 2.76 3.520 16.87  0  0    3    2
AMC Javelin         15.2   8 304.0 150 3.15 3.435 17.30  0  0    3    2
Camaro Z28          13.3   8 350.0 245 3.73 3.840 15.41  0  0    3    4
Pontiac Firebird    19.2   8 400.0 175 3.08 3.845 17.05  0  0    3    2
Fiat X1-9           27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
Porsche 914-2       26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2
Lotus Europa        30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
Ford Pantera L      15.8   8 351.0 264 4.22 3.170 14.50  0  1    5    4
Ferrari Dino        19.7   6 145.0 175 3.62 2.770 15.50  0  1    5    6
Maserati Bora       15.0   8 301.0 335 3.54 3.570 14.60  0  1    5    8
Volvo 142E          21.4   4 121.0 109 4.11 2.780 18.60  1  1    4    2

Informazioni sul set di dati

È possibile utilizzare il punto interrogativo ( ?) per ottenere informazioni sul mtcarsset di dati:

Esempio

# Use the question mark to get information about the data set

?mtcars

Risultato:

mtcars {set di dati}Documentazione R

Test su strada per auto di tendenza motoria

Descrizione

I dati sono stati estratti dalla rivista americana Motor Trend del 1974 e comprendono il consumo di carburante e 10 aspetti del design e delle prestazioni automobilistiche per 32 automobili (modelli 1973-74).

Utilizzo

mtcars

Formato

Un frame di dati con 32 osservazioni su 11 variabili (numeriche).

[, 1] mpg Miglia/(US) galloni
[, 2] cil Numero di cilindri
[, 3] disp Spostamento (cu.in.)
[, 4] hp Potenza lorda
[, 5] datto Rapporto al ponte posteriore
[, 6] peso Peso (1000 libbre)
[, 7] qsec Tempo di 1/4 di miglio
[, 8] contro Motore (0 = a forma di V, 1 = dritto)
[, 9] sono Cambio (0 = automatico, 1 = manuale)
[,10] Ingranaggio Numero di marce avanti
[,11] carboidrati Numero di carburatori

Nota

Henderson e Velleman (1981) commentano in una nota a piè di pagina alla tabella 1: "La codifica non cruciale di Hocking [trascrittore originale] del motore rotativo della Mazda come motore a sei cilindri in linea e del motore piatto della Porsche come motore a V, così come il inclusione del diesel Mercedes 240D, sono stati mantenuti per consentire confronti diretti da effettuare con le analisi precedenti.'

Fonte

Henderson e Velleman (1981), Costruire modelli di regressione multipli in modo interattivo. Biometria , 37 , 391-411.

Esempi

require(graphics)
pairs(mtcars, main = "mtcars data", gap = 1/4)
coplot(mpg ~ disp | as.factor(cyl), data = mtcars,
       panel = panel.smooth, rows = 1)
## possibly more meaningful, e.g., for summary() or bivariate plots:
mtcars2 <- within(mtcars, {
   vs <- factor(vs, labels = c("V", "S"))
   am <- factor(am, labels = c("automatic", "manual"))
   cyl  <- ordered(cyl)
   gear <- ordered(gear)
   carb <- ordered(carb)
})
summary(mtcars2)

Ottenere informazioni

Utilizzare la dim()funzione per trovare le dimensioni del set di dati e la names()funzione per visualizzare i nomi delle variabili:

Esempio

Data_Cars <- mtcars # create a variable of the mtcars data set for better organization

# Use dim() to find the dimension of the data set
dim(Data_Cars)

# Use names() to find the names of the variables from the data set
names(Data_Cars)

Risultato:

[1] 32 11
 [1] "mpg"  "cyl"  "disp" "hp"   "drat" "wt"   "qsec" "vs"   "am"   "gear"
[11] "carb"

Usa la rownames()funzione per ottenere il nome di ogni riga nella prima colonna, che è il nome di ogni auto:

Esempio

Data_Cars <- mtcars

rownames(Data_Cars)

Risultato:

 [1] "Mazda RX4"           "Mazda RX4 Wag"       "Datsun 710"         
 [4] "Hornet 4 Drive"      "Hornet Sportabout"   "Valiant"            
 [7] "Duster 360"          "Merc 240D"           "Merc 230"           
[10] "Merc 280"            "Merc 280C"           "Merc 450SE"         
[13] "Merc 450SL"          "Merc 450SLC"         "Cadillac Fleetwood" 
[16] "Lincoln Continental" "Chrysler Imperial"   "Fiat 128"           
[19] "Honda Civic"         "Toyota Corolla"      "Toyota Corona"      
[22] "Dodge Challenger"    "AMC Javelin"         "Camaro Z28"         
[25] "Pontiac Firebird"    "Fiat X1-9"           "Porsche 914-2"      
[28] "Lotus Europa"        "Ford Pantera L"      "Ferrari Dino"       
[31] "Maserati Bora"       "Volvo 142E"         

Dagli esempi sopra, abbiamo scoperto che il set di dati ha 32 osservazioni (Mazda RX4, Mazda RX4 Wag, Datsun 710, ecc.) e 11 variabili (mpg, cyl, disp, ecc.).

Una variabile è definita come qualcosa che può essere misurato o contato.

Ecco una breve spiegazione delle variabili dal set di dati mtcars:

Nome variabile Descrizione
mpg Miglia/gallone (americano).
cil Numero di cilindri
disp Dislocamento
hp Potenza lorda
datto Rapporto al ponte posteriore
peso Peso (1000 libbre)
qsec Tempo di 1/4 di miglio
contro Motore (0 = a forma di V, 1 = dritto)
sono Cambio (0 = automatico, 1 = manuale)
Ingranaggio Numero di marce avanti
carboidrati Numero di carburatori

Stampa valori variabili

Se vuoi stampare tutti i valori che appartengono ad una variabile, accedi al data frame utilizzando il $segno e il nome della variabile (ad esempio cyl(cilindri)):

Esempio

Data_Cars <- mtcars

Data_Cars$cyl

Risultato:

 [1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4 8 8 8 8 4 4 4 8 6 8 4

Ordina i valori delle variabili

Per ordinare i valori, utilizzare la sort()funzione:

Esempio

Data_Cars <- mtcars

sort(Data_Cars$cyl)

Risultato:

 [1] 4 4 4 4 4 4 4 4 4 4 4 6 6 6 6 6 6 6 8 8 8 8 8 8 8 8 8 8 8 8 8 8

Dagli esempi sopra, vediamo che la maggior parte delle auto ha 4 e 8 cilindri.


Analizzare i dati

Ora che abbiamo alcune informazioni sul set di dati, possiamo iniziare ad analizzarlo con alcuni numeri statistici.

Ad esempio, possiamo utilizzare la summary()funzione per ottenere un riepilogo statistico dei dati:

Esempio

Data_Cars <- mtcars

summary(Data_Cars)

Non preoccuparti se non capisci i numeri di output. Li padroneggerai a breve.

La summary()funzione restituisce sei numeri statistici per ogni variabile:

  • min
  • Primo quantile (percentile)
  • Mediano
  • Significare
  • Terzo quantile (percentile)
  • Massimo

Li tratteremo tutti, insieme ad altri numeri statistici nei prossimi capitoli.