Dati AI

Fino all'80% di un progetto di Intelligenza Artificiale riguarda la raccolta di dati :

  • Quali dati sono richiesti ?
  • Quali dati sono disponibili ?
  • Come selezionare i dati?
  • Come raccogliere i dati?
  • Come pulire i dati?
  • Come preparare i dati?
  • Come utilizzare i dati?

Che cosa sono i dati?

I dati possono essere molte cose. Con l'Intelligenza Artificiale deve essere una raccolta di fatti:

TipoEsempi
NumeriPrezzi. Date.
MisureMisurare. Altezza. Peso.
ParoleNomi e luoghi.
OsservazioniContando le auto.
DescrizioniÈ freddo.

L'intelligenza ha bisogno di dati

L'intelligenza umana ha bisogno di dati:

Un agente immobiliare ha bisogno di dati sulle case vendute per stimare i prezzi.

L'intelligenza artificiale ha bisogno di dati:

Un programma per computer ha anche bisogno di dati per stimare i prezzi.


Memorizzazione dei dati

I dati più comuni da raccogliere sono Numeri e Misure.

Spesso i dati vengono archiviati in array che rappresentano la relazione tra i valori.

Questa tabella contiene i prezzi delle case rispetto alle dimensioni:

Prezzo7889991011141415
Misurare5060708090100 110120130140150

Quantitativo vs. Qualitativo

I dati quantitativi sono numerici:

  • 55 auto
  • 15 metri
  • 35 bambini

I dati qualitativi sono descrittivi:

  • È freddo
  • È lungo
  • È stato divertente

Censimento o campionamento

Un censimento è quando raccogliamo dati per ogni membro di un gruppo.

Un esempio è quando raccogliamo dati per alcuni membri di un gruppo.

Se volessimo sapere quanti americani fumano sigarette, potremmo chiedere a ogni persona negli Stati Uniti (un censimento), oppure potremmo chiedere a 10 000 persone (un campione).

Un censimento è accurato , ma difficile da fare. Un campione è impreciso , ma è più facile da eseguire.


Termini di campionamento

Una popolazione è un gruppo di individui (oggetti) da cui vogliamo raccogliere informazioni.

Un censimento è informazioni su ogni individuo in una popolazione.

Un campione è un'informazione su una parte della popolazione (per rappresentarla tutta).


Campioni casuali

Affinché un campione rappresenti una popolazione, deve essere raccolto in modo casuale.

Un campione casuale è un campione in cui ogni membro della popolazione ha la stessa probabilità di apparire nel campione.


Bias di campionamento

Una distorsione di campionamento (errore) si verifica quando i campioni vengono raccolti in modo tale che alcuni individui abbiano meno (o più) probabilità di essere inclusi nel campione.