Scienza dei dati - Python DataFrame
Crea un DataFrame con Pandas
Un frame di dati è una rappresentazione strutturata di dati.
Definiamo un frame di dati con 3 colonne e 5 righe con numeri fittizi:
Esempio
import pandas as pd
d = {'col1': [1, 2, 3, 4, 7], 'col2': [4, 5, 6, 9,
5], 'col3': [7, 8, 12, 1, 11]}
df = pd.DataFrame(data=d)
print(df)
Esempio spiegato
- Importa la libreria Pandas come pd
- Definisci i dati con colonna e righe in una variabile denominata d
- Crea un frame di dati usando la funzione pd.DataFrame()
- Il frame di dati contiene 3 colonne e 5 righe
- Stampa l'output del frame di dati con la funzione print()
Scriviamo pd. davanti a DataFrame() per far sapere a Python che vogliamo attivare la funzione DataFrame() dalla libreria Pandas.
Fai attenzione alle D e F maiuscole in DataFrame!
Interpretazione dell'output
Questo è l'output:
Vediamo che "col1", "col2" e "col3" sono i nomi delle colonne.
Non essere confuso sui numeri verticali che vanno da 0-4. Ci dicono le informazioni sulla posizione delle righe.
In Python, la numerazione delle righe inizia con zero.
Ora possiamo usare Python per contare le colonne e le righe.
Possiamo usare df.shape[1] per trovare il numero di colonne:
Esempio
Conta il numero di colonne:
count_column = df.shape[1]
print(count_column)
Possiamo usare df.shape[0] per trovare il numero di righe:
Esempio
Conta il numero di righe:
count_row = df.shape[0]
print(count_row)
Perché non possiamo semplicemente contare le righe e le colonne da soli?
Se lavoriamo con set di dati più grandi con molte colonne e righe, sarà confuso contarli da soli. Rischi di contare male. Se utilizziamo correttamente le funzioni integrate in Python, assicuriamo che il conteggio sia corretto.