Cluster di dati

  • I cluster sono raccolte di dati simili
  • Il clustering è un tipo di apprendimento non supervisionato
  • Il coefficiente di correlazione descrive la forza di una relazione.

Cluster

I cluster sono raccolte di dati basate sulla somiglianza.

I punti dati raggruppati insieme in un grafico possono essere spesso classificati in gruppi.

Nel grafico sottostante possiamo distinguere 3 diversi cluster:


Identificazione dei cluster

I cluster possono contenere molte informazioni preziose, ma i cluster hanno tutti i tipi di forme, quindi come possiamo riconoscerli?

I due metodi principali sono:

  • Utilizzo della visualizzazione
  • Utilizzo di un algoritmo di clustering

Raggruppamento

Il clustering è un tipo di apprendimento non supervisionato .

Il clustering sta cercando di:

  • Raccogli dati simili in gruppi
  • Raccogli dati dissimili in altri gruppi

Metodi di raggruppamento

  • Metodo di densità
  • Metodo gerarchico
  • Metodo di partizionamento
  • Metodo basato su griglia

Il metodo della densità considera i punti in una regione densa con più somiglianze e differenze rispetto ai punti in una regione densa inferiore. Il metodo della densità ha una buona precisione. Ha anche la capacità di unire i cluster.
Due algoritmi comuni sono DBSCAN e OPTICS.

Il metodo gerarchico forma i cluster in una struttura ad albero. Nuovi cluster vengono formati utilizzando cluster precedentemente formati.
Due algoritmi comuni sono CURE e BIRCH.

Il metodo basato sulla griglia formula i dati in un numero finito di celle che formano una struttura a griglia.
Due algoritmi comuni sono CLIQUE e STING

Il metodo di partizionamento partiziona gli oggetti in k cluster e ogni partizione forma un cluster.
Un algoritmo comune è CLARANS.


Coefficiente di correlazione

Il coefficiente di correlazione (r) descrive la forza e la direzione di una relazione lineare e delle variabili x/y su un grafico a dispersione.

Il valore di r è sempre compreso tra -1 e +1:

-1.00Perfetto in discesaRelazione lineare negativa.
-0,70Forte discesaRelazione lineare negativa.
-0,50Discesa moderataRelazione lineare negativa.
-0.30Debole discesaRelazione lineare negativa.
0Nessuna relazione lineare.
+0,30Debole in salitaRelazione lineare positiva.
+0,50Discesa moderataRelazione lineare positiva.
+0,70Forte salitaRelazione lineare positiva.
+1.00Perfetta in salitaRelazione lineare positiva.

Perfetta Salita +1.00 :

Discesa perfetta -1.00 :

'

Forte salita +0.61 :

Nessuna relazione :