Scienza dei dati - Python DataFrame


Crea un DataFrame con Pandas

Un frame di dati è una rappresentazione strutturata di dati.

Definiamo un frame di dati con 3 colonne e 5 righe con numeri fittizi:

Esempio

import pandas as pd

d = {'col1': [1, 2, 3, 4, 7], 'col2': [4, 5, 6, 9, 5], 'col3': [7, 8, 12, 1, 11]}

df = pd.DataFrame(data=d)

print(df)

Esempio spiegato

  • Importa la libreria Pandas come pd
  • Definisci i dati con colonna e righe in una variabile denominata d
  • Crea un frame di dati usando la funzione pd.DataFrame()
  • Il frame di dati contiene 3 colonne e 5 righe
  • Stampa l'output del frame di dati con la funzione print()

Scriviamo pd. davanti a DataFrame() per far sapere a Python che vogliamo attivare la funzione DataFrame() dalla libreria Pandas.

Fai attenzione alle D e F maiuscole in DataFrame!


Interpretazione dell'output

Questo è l'output:

Uscita frame di dati

Vediamo che "col1", "col2" e "col3" sono i nomi delle colonne.

Non essere confuso sui numeri verticali che vanno da 0-4. Ci dicono le informazioni sulla posizione delle righe.

In Python, la numerazione delle righe inizia con zero.

Ora possiamo usare Python per contare le colonne e le righe.

Possiamo usare df.shape[1] per trovare il numero di colonne:

Esempio

Conta il numero di colonne:

count_column = df.shape[1]
print(count_column)

Possiamo usare df.shape[0] per trovare il numero di righe:

Esempio

Conta il numero di righe:

count_row = df.shape[0]
print(count_row)

Perché non possiamo semplicemente contare le righe e le colonne da soli?

Se lavoriamo con set di dati più grandi con molte colonne e righe, sarà confuso contarli da soli. Rischi di contare male. Se utilizziamo correttamente le funzioni integrate in Python, assicuriamo che il conteggio sia corretto.