Dati AI
Fino all'80% di un progetto di Intelligenza Artificiale riguarda la raccolta di dati :
- Quali dati sono richiesti ?
- Quali dati sono disponibili ?
- Come selezionare i dati?
- Come raccogliere i dati?
- Come pulire i dati?
- Come preparare i dati?
- Come utilizzare i dati?
Che cosa sono i dati?
I dati possono essere molte cose. Con l'Intelligenza Artificiale deve essere una raccolta di fatti:
Tipo | Esempi |
---|---|
Numeri | Prezzi. Date. |
Misure | Misurare. Altezza. Peso. |
Parole | Nomi e luoghi. |
Osservazioni | Contando le auto. |
Descrizioni | È freddo. |
L'intelligenza ha bisogno di dati
L'intelligenza umana ha bisogno di dati:
Un agente immobiliare ha bisogno di dati sulle case vendute per stimare i prezzi.
L'intelligenza artificiale ha bisogno di dati:
Un programma per computer ha anche bisogno di dati per stimare i prezzi.
Memorizzazione dei dati
I dati più comuni da raccogliere sono Numeri e Misure.
Spesso i dati vengono archiviati in array che rappresentano la relazione tra i valori.
Questa tabella contiene i prezzi delle case rispetto alle dimensioni:
Prezzo | 7 | 8 | 8 | 9 | 9 | 9 | 10 | 11 | 14 | 14 | 15 |
Misurare | 50 | 60 | 70 | 80 | 90 | 100 | 110 | 120 | 130 | 140 | 150 |
Quantitativo vs. Qualitativo
I dati quantitativi sono numerici:
- 55 auto
- 15 metri
- 35 bambini
I dati qualitativi sono descrittivi:
- È freddo
- È lungo
- È stato divertente
Censimento o campionamento
Un censimento è quando raccogliamo dati per ogni membro di un gruppo.
Un esempio è quando raccogliamo dati per alcuni membri di un gruppo.
Se volessimo sapere quanti americani fumano sigarette, potremmo chiedere a ogni persona negli Stati Uniti (un censimento), oppure potremmo chiedere a 10 000 persone (un campione).
Un censimento è accurato , ma difficile da fare. Un campione è impreciso , ma è più facile da eseguire.
Termini di campionamento
Una popolazione è un gruppo di individui (oggetti) da cui vogliamo raccogliere informazioni.
Un censimento è informazioni su ogni individuo in una popolazione.
Un campione è un'informazione su una parte della popolazione (per rappresentarla tutta).
Campioni casuali
Affinché un campione rappresenti una popolazione, deve essere raccolto in modo casuale.
Un campione casuale è un campione in cui ogni membro della popolazione ha la stessa probabilità di apparire nel campione.
Bias di campionamento
Una distorsione di campionamento (errore) si verifica quando i campioni vengono raccolti in modo tale che alcuni individui abbiano meno (o più) probabilità di essere inclusi nel campione.