Introduzione alla scienza dei dati


La scienza dei dati è una combinazione di più discipline che utilizza la statistica, l'analisi dei dati e l'apprendimento automatico per analizzare i dati ed estrarne conoscenze e approfondimenti.


Cos'è la scienza dei dati?

La scienza dei dati riguarda la raccolta, l'analisi e il processo decisionale dei dati.

La scienza dei dati consiste nel trovare modelli nei dati, attraverso l'analisi, e fare previsioni future.

Utilizzando Data Science, le aziende sono in grado di realizzare:

  • Decisioni migliori (dovremmo scegliere A o B)
  • Analisi predittiva (cosa accadrà dopo?)
  • Scoperte di pattern (trova pattern o forse informazioni nascoste nei dati)

Dove è necessaria la scienza dei dati?

La scienza dei dati è utilizzata oggi in molti settori nel mondo, ad esempio bancario, di consulenza, sanitario e manifatturiero.

Esempi di dove è necessaria la scienza dei dati:

  • Per la pianificazione del percorso: Per scoprire i migliori percorsi da spedire
  • Prevedere ritardi per volo/nave/treno ecc. (attraverso analisi predittive)
  • Per creare offerte promozionali
  • Per trovare il momento più adatto per consegnare la merce
  • Per prevedere le entrate dei prossimi anni per un'azienda
  • Analizzare i benefici per la salute dell'allenamento
  • Per pronosticare chi vincerà le elezioni

La scienza dei dati può essere applicata in quasi ogni parte di un'azienda in cui i dati sono disponibili. Esempi sono:

  • Beni di consumo
  • Mercati azionari
  • Industria
  • Politica
  • Aziende logistiche
  • E-commerce

Come funziona un Data Scientist?

Un Data Scientist richiede competenze in diversi ambiti:

  • Apprendimento automatico
  • Statistiche
  • Programmazione (Python o R)
  • Matematica
  • Banche dati

Un Data Scientist deve trovare modelli all'interno dei dati. Prima che possa trovare i modelli, deve organizzare i dati in un formato standard.

Ecco come lavora un Data Scientist:

  1. Poni le domande giuste - Per capire il problema aziendale.
  2. Esplora e raccogli dati : da database, registri web, feedback dei clienti, ecc.
  3. Estrai i dati : trasforma i dati in un formato standardizzato.
  4. Pulisci i dati : rimuove i valori errati dai dati.
  5. Trova e sostituisci i valori mancanti - Verifica la presenza di valori mancanti e sostituiscili con un valore adeguato (ad es. un valore medio).
  6. Normalizza i dati - Ridimensiona i valori in un intervallo pratico (ad es. 140 cm è inferiore a 1,8 m. Tuttavia, il numero 140 è maggiore di 1,8. - quindi il ridimensionamento è importante).
  7. Analizza i dati, trova modelli e fai previsioni future .
  8. Rappresentare il risultato - Presentare il risultato con informazioni utili in un modo comprensibile per l'"azienda".

Dove iniziare?

In questo tutorial, inizieremo presentando cosa sono i dati e come possono essere analizzati.

Imparerai come utilizzare le statistiche e le funzioni matematiche per fare previsioni.