Panda - Pulizia delle celle vuote


Celle vuote

Le celle vuote possono potenzialmente darti un risultato sbagliato quando analizzi i dati.


Rimuovi righe

Un modo per gestire le celle vuote è rimuovere le righe che contengono celle vuote.

Questo di solito va bene, poiché i set di dati possono essere molto grandi e la rimozione di alcune righe non avrà un grande impatto sul risultato.

Esempio

Restituisce un nuovo Data Frame senza celle vuote:

import pandas as pd

df = pd.read_csv('data.csv')

new_df = df.dropna()

print(new_df.to_string())

Nei nostri esempi di pulizia utilizzeremo un file CSV chiamato 'dirtydata.csv'.

Scarica dirtydata.csv . o Apri dirtydata.csv

Nota: per impostazione predefinita, il dropna()metodo restituisce un nuovo DataFrame e non cambierà l'originale.

Se vuoi cambiare il DataFrame originale, usa l' inplace = Trueargomento:

Esempio

Rimuovi tutte le righe con valori NULL:

import pandas as pd

df = pd.read_csv('data.csv')

df.dropna(inplace = True)

print(df.to_string())

Nota: ora, dropna(inplace = True)NON restituirà un nuovo DataFrame, ma rimuoverà tutte le righe contenenti valori NULL dal DataFrame originale.


Sostituisci valori vuoti

Un altro modo per gestire le celle vuote è inserire invece un nuovo valore.

In questo modo non è necessario eliminare intere righe solo a causa di alcune celle vuote.

Il fillna()metodo ci consente di sostituire le celle vuote con un valore:

Esempio

Sostituisci i valori NULL con il numero 130:

import pandas as pd

df = pd.read_csv('data.csv')

df.fillna(130, inplace = True)

Sostituisci solo per colonne specificate

L'esempio sopra sostituisce tutte le celle vuote nell'intero frame di dati.

Per sostituire solo i valori vuoti per una colonna, specificare il nome della colonna per DataFrame:

Esempio

Sostituisci i valori NULL nelle colonne "Calorie" con il numero 130:

import pandas as pd

df = pd.read_csv('data.csv')

df["Calories"].fillna(130, inplace = True)

w3schools CERTIFIED . 2021

Ottieni la certificazione!

Completa i moduli Pandas, fai gli esercizi, sostieni l'esame e diventerai certificato w3schools!

ISCRIVITI $ 10

Sostituisci usando media, mediana o modalità

Un modo comune per sostituire le celle vuote consiste nel calcolare il valore medio, mediano o modale della colonna.

Pandas utilizza i metodi mean() median()e mode()per calcolare i rispettivi valori per una colonna specificata:

Esempio

Calcola la MEDIA e sostituisci eventuali valori vuoti con essa:

import pandas as pd

df = pd.read_csv('data.csv')

x = df["Calories"].mean()

df["Calories"].fillna(x, inplace = True)

Media = il valore medio (la somma di tutti i valori divisa per il numero di valori).

Esempio

Calcola la MEDIANA e sostituisci eventuali valori vuoti con essa:

import pandas as pd

df = pd.read_csv('data.csv')

x = df["Calories"].median()

df["Calories"].fillna(x, inplace = True)

Mediana = il valore al centro, dopo aver ordinato tutti i valori in ordine crescente.

Esempio

Calcola la MODALITÀ e sostituisci eventuali valori vuoti con essa:

import pandas as pd

df = pd.read_csv('data.csv')

x = df["Calories"].mode()[0]

df["Calories"].fillna(x, inplace = True)

Mode = il valore che compare più frequentemente.