Panda - Pulizia delle celle vuote
Celle vuote
Le celle vuote possono potenzialmente darti un risultato sbagliato quando analizzi i dati.
Rimuovi righe
Un modo per gestire le celle vuote è rimuovere le righe che contengono celle vuote.
Questo di solito va bene, poiché i set di dati possono essere molto grandi e la rimozione di alcune righe non avrà un grande impatto sul risultato.
Esempio
Restituisce un nuovo Data Frame senza celle vuote:
import pandas as pd
df = pd.read_csv('data.csv')
new_df = df.dropna()
print(new_df.to_string())
Nei nostri esempi di pulizia utilizzeremo un file CSV chiamato 'dirtydata.csv'.
Scarica dirtydata.csv . o Apri dirtydata.csv
Nota: per impostazione predefinita, il dropna()
metodo restituisce un nuovo DataFrame e non cambierà l'originale.
Se vuoi cambiare il DataFrame originale, usa l'
inplace = True
argomento:
Esempio
Rimuovi tutte le righe con valori NULL:
import pandas as pd
df = pd.read_csv('data.csv')
df.dropna(inplace = True)
print(df.to_string())
Nota: ora, dropna(inplace = True)
NON restituirà un nuovo DataFrame, ma rimuoverà tutte le righe contenenti valori NULL dal DataFrame originale.
Sostituisci valori vuoti
Un altro modo per gestire le celle vuote è inserire invece un nuovo valore.
In questo modo non è necessario eliminare intere righe solo a causa di alcune celle vuote.
Il fillna()
metodo ci consente di sostituire le celle vuote con un valore:
Esempio
Sostituisci i valori NULL con il numero 130:
import pandas as pd
df = pd.read_csv('data.csv')
df.fillna(130, inplace = True)
Sostituisci solo per colonne specificate
L'esempio sopra sostituisce tutte le celle vuote nell'intero frame di dati.
Per sostituire solo i valori vuoti per una colonna, specificare il nome della colonna per DataFrame:
Esempio
Sostituisci i valori NULL nelle colonne "Calorie" con il numero 130:
import pandas as pd
df = pd.read_csv('data.csv')
df["Calories"].fillna(130, inplace = True)
Ottieni la certificazione!
ISCRIVITI $ 10
Sostituisci usando media, mediana o modalità
Un modo comune per sostituire le celle vuote consiste nel calcolare il valore medio, mediano o modale della colonna.
Pandas utilizza i metodi mean()
median()
e mode()
per calcolare i rispettivi valori per una colonna specificata:
Esempio
Calcola la MEDIA e sostituisci eventuali valori vuoti con essa:
import pandas as pd
df = pd.read_csv('data.csv')
x = df["Calories"].mean()
df["Calories"].fillna(x, inplace = True)
Media = il valore medio (la somma di tutti i valori divisa per il numero di valori).
Esempio
Calcola la MEDIANA e sostituisci eventuali valori vuoti con essa:
import pandas as pd
df = pd.read_csv('data.csv')
x = df["Calories"].median()
df["Calories"].fillna(x, inplace = True)
Mediana = il valore al centro, dopo aver ordinato tutti i valori in ordine crescente.
Esempio
Calcola la MODALITÀ e sostituisci eventuali valori vuoti con essa:
import pandas as pd
df = pd.read_csv('data.csv')
x = df["Calories"].mode()[0]
df["Calories"].fillna(x, inplace = True)
Mode = il valore che compare più frequentemente.