Introduzione alla scienza dei dati
La scienza dei dati è una combinazione di più discipline che utilizza la statistica, l'analisi dei dati e l'apprendimento automatico per analizzare i dati ed estrarne conoscenze e approfondimenti.
Cos'è la scienza dei dati?
La scienza dei dati riguarda la raccolta, l'analisi e il processo decisionale dei dati.
La scienza dei dati consiste nel trovare modelli nei dati, attraverso l'analisi, e fare previsioni future.
Utilizzando Data Science, le aziende sono in grado di realizzare:
- Decisioni migliori (dovremmo scegliere A o B)
- Analisi predittiva (cosa accadrà dopo?)
- Scoperte di pattern (trova pattern o forse informazioni nascoste nei dati)
Dove è necessaria la scienza dei dati?
La scienza dei dati è utilizzata oggi in molti settori nel mondo, ad esempio bancario, di consulenza, sanitario e manifatturiero.
Esempi di dove è necessaria la scienza dei dati:
- Per la pianificazione del percorso: Per scoprire i migliori percorsi da spedire
- Prevedere ritardi per volo/nave/treno ecc. (attraverso analisi predittive)
- Per creare offerte promozionali
- Per trovare il momento più adatto per consegnare la merce
- Per prevedere le entrate dei prossimi anni per un'azienda
- Analizzare i benefici per la salute dell'allenamento
- Per pronosticare chi vincerà le elezioni
La scienza dei dati può essere applicata in quasi ogni parte di un'azienda in cui i dati sono disponibili. Esempi sono:
- Beni di consumo
- Mercati azionari
- Industria
- Politica
- Aziende logistiche
- E-commerce
Come funziona un Data Scientist?
Un Data Scientist richiede competenze in diversi ambiti:
- Apprendimento automatico
- Statistiche
- Programmazione (Python o R)
- Matematica
- Banche dati
Un Data Scientist deve trovare modelli all'interno dei dati. Prima che possa trovare i modelli, deve organizzare i dati in un formato standard.
Ecco come lavora un Data Scientist:
- Poni le domande giuste - Per capire il problema aziendale.
- Esplora e raccogli dati : da database, registri web, feedback dei clienti, ecc.
- Estrai i dati : trasforma i dati in un formato standardizzato.
- Pulisci i dati : rimuove i valori errati dai dati.
- Trova e sostituisci i valori mancanti - Verifica la presenza di valori mancanti e sostituiscili con un valore adeguato (ad es. un valore medio).
- Normalizza i dati - Ridimensiona i valori in un intervallo pratico (ad es. 140 cm è inferiore a 1,8 m. Tuttavia, il numero 140 è maggiore di 1,8. - quindi il ridimensionamento è importante).
- Analizza i dati, trova modelli e fai previsioni future .
- Rappresentare il risultato - Presentare il risultato con informazioni utili in un modo comprensibile per l'"azienda".
Dove iniziare?
In questo tutorial, inizieremo presentando cosa sono i dati e come possono essere analizzati.
Imparerai come utilizzare le statistiche e le funzioni matematiche per fare previsioni.