Panda - Analisi dei frame di dati


Visualizzazione dei dati

Uno dei metodi più utilizzati per ottenere una rapida panoramica di DataFrame è il head()metodo.

Il head()metodo restituisce le intestazioni e un numero specificato di righe, partendo dall'alto.

Esempio

Ottieni una rapida panoramica stampando le prime 10 righe di DataFrame:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head(10))

Nei nostri esempi utilizzeremo un file CSV chiamato 'data.csv'.

Scarica data.csv o apri data.csv nel tuo browser.

Nota: se il numero di righe non è specificato, il head()metodo restituirà le prime 5 righe.

Esempio

Stampa le prime 5 righe del DataFrame:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head())

Esiste anche un tail()metodo per visualizzare le ultime righe di DataFrame.

Il tail()metodo restituisce le intestazioni e un numero specificato di righe, partendo dal basso.

Esempio

Stampa le ultime 5 righe del DataFrame:

print(df.tail()) 

w3schools CERTIFIED . 2021

Ottieni la certificazione!

Completa i moduli Pandas, fai gli esercizi, sostieni l'esame e diventerai certificato w3schools!

ISCRIVITI A $10

Informazioni sui dati

L'oggetto DataFrames ha un metodo chiamato info(), che fornisce maggiori informazioni sul set di dati.

Esempio

Stampa le informazioni sui dati:

print(df.info()) 

Risultato

  <class 'pandas.core.frame.DataFrame'>
  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):
   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64
  dtypes: float64(1), int64(3)
  memory usage: 5.4 KB
  None
    

Risultato spiegato

Il risultato ci dice che ci sono 169 righe e 4 colonne:

  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):

E il nome di ogni colonna, con il tipo di dati:

   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64

Valori Nulli

Il info()metodo ci dice anche quanti valori non nulli sono presenti in ogni colonna e nel nostro set di dati sembra che ci siano 164 su 169 valori non nulli nella colonna "Calorie".

Ciò significa che ci sono 5 righe senza alcun valore, nella colonna "Calorie", per qualsiasi motivo.

I valori vuoti, o valori Null, possono essere dannosi durante l'analisi dei dati e dovresti considerare di rimuovere le righe con valori vuoti. Questo è un passo verso ciò che viene chiamato pulizia dei dati e ne imparerai di più nei prossimi capitoli.