Cluster di dati
- I cluster sono raccolte di dati simili
- Il clustering è un tipo di apprendimento non supervisionato
- Il coefficiente di correlazione descrive la forza di una relazione.
Cluster
I cluster sono raccolte di dati basate sulla somiglianza.
I punti dati raggruppati insieme in un grafico possono essere spesso classificati in gruppi.
Nel grafico sottostante possiamo distinguere 3 diversi cluster:
Identificazione dei cluster
I cluster possono contenere molte informazioni preziose, ma i cluster hanno tutti i tipi di forme, quindi come possiamo riconoscerli?
I due metodi principali sono:
- Utilizzo della visualizzazione
- Utilizzo di un algoritmo di clustering
Raggruppamento
Il clustering è un tipo di apprendimento non supervisionato .
Il clustering sta cercando di:
- Raccogli dati simili in gruppi
- Raccogli dati dissimili in altri gruppi
Metodi di raggruppamento
- Metodo di densità
- Metodo gerarchico
- Metodo di partizionamento
- Metodo basato su griglia
Il metodo della densità considera i punti in una regione densa con più somiglianze e differenze rispetto ai punti in una regione densa inferiore. Il metodo della densità ha una buona precisione. Ha anche la capacità di unire i cluster.
Due algoritmi comuni sono DBSCAN e OPTICS.
Il metodo gerarchico forma i cluster in una struttura ad albero. Nuovi cluster vengono formati utilizzando cluster precedentemente formati.
Due algoritmi comuni sono CURE e BIRCH.
Il metodo basato sulla griglia formula i dati in un numero finito di celle che formano una struttura a griglia.
Due algoritmi comuni sono CLIQUE e STING
Il metodo di partizionamento partiziona gli oggetti in k cluster e ogni partizione forma un cluster.
Un algoritmo comune è CLARANS.
Coefficiente di correlazione
Il coefficiente di correlazione (r) descrive la forza e la direzione di una relazione lineare e delle variabili x/y su un grafico a dispersione.
Il valore di r è sempre compreso tra -1 e +1:
-1.00 | Perfetto in discesa | Relazione lineare negativa. |
-0,70 | Forte discesa | Relazione lineare negativa. |
-0,50 | Discesa moderata | Relazione lineare negativa. |
-0.30 | Debole discesa | Relazione lineare negativa. |
0 | Nessuna relazione lineare. | |
+0,30 | Debole in salita | Relazione lineare positiva. |
+0,50 | Discesa moderata | Relazione lineare positiva. |
+0,70 | Forte salita | Relazione lineare positiva. |
+1.00 | Perfetta in salita | Relazione lineare positiva. |
Perfetta Salita +1.00 :
Discesa perfetta -1.00 :
Forte salita +0.61 :
Nessuna relazione :