Panda - Analisi dei frame di dati
Visualizzazione dei dati
Uno dei metodi più utilizzati per ottenere una rapida panoramica di DataFrame è il head()
metodo.
Il head()
metodo restituisce le intestazioni e un numero specificato di righe, partendo dall'alto.
Esempio
Ottieni una rapida panoramica stampando le prime 10 righe di DataFrame:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head(10))
Nei nostri esempi utilizzeremo un file CSV chiamato 'data.csv'.
Scarica data.csv o apri data.csv nel tuo browser.
Nota: se il numero di righe non è specificato, il head()
metodo restituirà le prime 5 righe.
Esempio
Stampa le prime 5 righe del DataFrame:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head())
Esiste anche un tail()
metodo per visualizzare le
ultime righe di DataFrame.
Il tail()
metodo restituisce le intestazioni e un numero specificato di righe, partendo dal basso.
Esempio
Stampa le ultime 5 righe del DataFrame:
print(df.tail())
Ottieni la certificazione!
ISCRIVITI A $10
Informazioni sui dati
L'oggetto DataFrames ha un metodo chiamato info()
, che fornisce maggiori informazioni sul set di dati.
Esempio
Stampa le informazioni sui dati:
print(df.info())
Risultato
<class 'pandas.core.frame.DataFrame'> RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64 dtypes: float64(1), int64(3) memory usage: 5.4 KB None
Risultato spiegato
Il risultato ci dice che ci sono 169 righe e 4 colonne:
RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns):
E il nome di ogni colonna, con il tipo di dati:
# Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64
Valori Nulli
Il info()
metodo ci dice anche quanti valori non nulli sono presenti in ogni colonna e nel nostro set di dati sembra che ci siano 164 su 169 valori non nulli nella colonna "Calorie".
Ciò significa che ci sono 5 righe senza alcun valore, nella colonna "Calorie", per qualsiasi motivo.
I valori vuoti, o valori Null, possono essere dannosi durante l'analisi dei dati e dovresti considerare di rimuovere le righe con valori vuoti. Questo è un passo verso ciò che viene chiamato pulizia dei dati e ne imparerai di più nei prossimi capitoli.