Data mining con clustering K-Means
Il K-significa che l'algoritmo di clustering è a estrazione dei dati e strumento di apprendimento automatico utilizzato per raggruppare le osservazioni in gruppi di osservazioni correlate senza alcuna conoscenza preliminare di tali relazioni. Per campionamento, l'algoritmo tenta di mostrare a quale categoria, o cluster, i dati appartengono, con il numero di cluster definito dal valore K.
Il K-significa che l'algoritmo è una delle tecniche di clustering più semplici ed è comunemente usato nell'imaging medico, nella biometria e nei campi correlati. Il vantaggio di K-significa che il clustering è che racconta i tuoi dati (usando la sua forma non supervisionata) piuttosto che te dovendo istruire l'algoritmo sui dati all'inizio (usando il modulo supervisionato del algoritmo).
A volte è indicato come Algoritmo di Lloyd, in particolare nei circoli informatici perché l'algoritmo standard è stato proposto per la prima volta da Stuart Lloyd nel 1957. Il termine "k-means" è stato coniato nel 1967 da James McQueen.
Come funziona l'algoritmo K-Means
Il K-significa che l'algoritmo è un algoritmo evolutivo che prende il nome dal suo metodo di funzionamento. L'algoritmo raggruppa le osservazioni in K gruppi, dove K viene fornito come parametro di input. Quindi assegna ogni osservazione ai cluster in base alla vicinanza dell'osservazione alla media del cluster. La media del cluster viene quindi ricalcolata e il processo ricomincia. Ecco come funziona l'algoritmo:
- L'algoritmo seleziona arbitrariamente K punti come i centri iniziali del cluster (i mezzi).
- Ogni punto nel dataset è assegnato all'ammasso chiuso, in base alla distanza euclidea tra ogni punto e ogni centro dell'ammasso.
- Ogni centro cluster viene ricalcolato come media dei punti in quel cluster.
- I passaggi 2 e 3 si ripetono fino a quando i cluster convergono. La convergenza può essere definita in modo diverso a seconda dell'implementazione, ma normalmente significa che nessuna osservazione cambiare cluster quando vengono ripetuti i passaggi 2 e 3, o che le modifiche non fanno una differenza sostanziale nella definizione del cluster.
Scelta del numero di cluster
Uno dei principali svantaggi di K-significa che il clustering è il fatto che è necessario specificare il numero di cluster come input per l'algoritmo. Come progettato, l'algoritmo non è in grado di determinare il numero appropriato di cluster e dipende dall'utente per identificarlo in anticipo.
Ad esempio, se hai un gruppo di persone che devono essere raggruppate in base all'identità di genere binaria come maschio o femmina, chiamando il K-significa algoritmo che utilizza l'input k=3 costringerebbe le persone in tre gruppi quando solo due, o un input di k=2, fornirebbe un adattamento più naturale.
Allo stesso modo, se un gruppo di individui è stato facilmente raggruppato in base allo stato di origine e hai chiamato il K-significa algoritmo con l'input k=20, i risultati potrebbero essere troppo generalizzati per essere efficaci.
Per questo motivo, spesso è una buona idea sperimentare diversi valori di K per identificare il valore più adatto ai tuoi dati. Potresti anche voler esplorare l'uso di altri algoritmi di data mining nella tua ricerca di conoscenze apprese dalla macchina.
FAQ
-
Che cos'è il data mining?
Estrazione dei dati è la pratica di analizzare enormi quantità di informazioni per cercare tendenze e modelli. Questi dati vengono spesso raccolti dalla cronologia di navigazione in Internet di una persona, dalle sue abitudini di acquisto, dai dati sulla posizione e altro ancora.
-
Come funziona il data mining?
Le aziende comunemente raccolgono dati da programmi a premi, social media, mailing list e altro. Tali dati vengono quindi analizzati per modelli e comportamenti. È così che i negozi di alimentari sanno che lo zabaione vende alla grande durante le festività natalizie, ad esempio, o perché gli annunci per le forniture da campeggio compaiono nel tuo feed sui social media dopo aver fatto ricerche su quel viaggio a Sion.
-
Quali sono i principali obiettivi associati al data mining?
Gli obiettivi principali sono trovare approfondimenti, tendenze e relazioni all'interno di grandi quantità di dati. Gli esperti utilizzano queste informazioni grezze per sviluppare strategie di marketing. È anche usato in campi come la polizia, la scienza e l'ingegneria.