Exploatarea datelor cu K-Means Clustering
The k-înseamnă că algoritmul de grupare este a extragerea datelor și instrument de învățare automată folosit pentru a grupa observațiile în grupuri de observații înrudite fără cunoștințe prealabile despre aceste relații. Prin eșantionare, algoritmul încearcă să arate cărei categorii, sau cluster, aparțin datele, numărul de clustere fiind definit de valoarea k.
The k-înseamnă că algoritmul este una dintre cele mai simple tehnici de grupare și este utilizat în mod obișnuit în imagistica medicală, biometrie și domenii conexe. Avantajul de k-înseamnă că gruparea este că vorbește despre datele tale (folosind forma nesupravegheată) mai degrabă decât despre tine trebuind să instruiască algoritmul despre datele de la început (folosind forma supravegheată a algoritm).
Este denumit uneori ca Algoritmul lui Lloyd, în special în cercurile informatice, deoarece algoritmul standard a fost propus pentru prima dată de Stuart Lloyd în 1957. Termenul „k-means” a fost inventat în 1967 de James McQueen.
Cum funcționează algoritmul K-Means
The k-înseamnă că algoritmul este un algoritm evolutiv care își câștigă numele din metoda sa de operare. Algoritmul grupează observațiile în k grupuri, unde k este furnizat ca parametru de intrare. Apoi atribuie fiecare observație clusterelor pe baza proximității observației de media clusterului. Media clusterului este apoi recalculată și procesul începe din nou. Iată cum funcționează algoritmul:
- Algoritmul selectează în mod arbitrar k puncte ca centrele clusterului inițial (mijloacele).
- Fiecare punct din setul de date este atribuit clusterului închis, pe baza distanței euclidiene dintre fiecare punct și centrul fiecărui cluster.
- Fiecare centru de cluster este recalculat ca media punctelor din acel cluster.
- Pașii 2 și 3 se repetă până când grupurile converg. Convergența poate fi definită diferit în funcție de implementare, dar în mod normal înseamnă că fie nu există observații schimbați grupurile atunci când pașii 2 și 3 sunt repeți sau că modificările nu fac o diferență semnificativă în definirea clustere.
Alegerea numărului de clustere
Unul dintre principalele dezavantaje ale k-înseamnă că gruparea este faptul că trebuie să specificați numărul de clustere ca intrare în algoritm. Așa cum a fost proiectat, algoritmul nu este capabil să determine numărul adecvat de clustere și depinde de utilizator să identifice acest lucru în prealabil.
De exemplu, dacă ați avut un grup de persoane care urmează să fie grupate pe baza identității de gen binare ca bărbat sau femeie, apelând k-înseamnă algoritm care utilizează intrarea k=3 ar forța oamenii în trei grupuri atunci când doar două, sau o intrare de k=2, ar oferi o potrivire mai naturală.
În mod similar, dacă un grup de indivizi a fost ușor grupat în funcție de statul de origine și ați apelat k-înseamnă algoritm cu intrarea k=20, rezultatele ar putea fi prea generalizate pentru a fi eficiente.
Din acest motiv, este adesea o idee bună să experimentați cu diferite valori ale k pentru a identifica valoarea care se potrivește cel mai bine datelor dvs. De asemenea, poate doriți să explorați utilizarea alți algoritmi de extragere a datelor în căutarea ta pentru cunoștințe învățate automat.
FAQ
-
Ce este data mining?
Exploatarea datelor este practica de a analiza cantități uriașe de informații pentru a căuta tendințe și tipare. Aceste date sunt adesea culese din istoricul de navigare pe internet al unei persoane, obiceiurile sale de cumpărături, datele despre locație și multe altele.
-
Cum funcționează data mining-ul?
Companiile colectează de obicei date din programele de recompense, rețelele sociale, listele de corespondență și multe altele. Aceste date sunt apoi analizate pentru modele și comportamente. Acesta este modul în care magazinele alimentare știu că nuga de ouă se vinde foarte mult în timpul sărbătorilor, de exemplu, sau de ce reclamele pentru materiale de camping apar în feedul dvs. de socializare după ce cercetați acea excursie la Sion.
-
Care sunt principalele obiective asociate cu data mining?
Obiectivele principale sunt găsirea de perspective, tendințe și relații în cadrul unor cantități mari de date. Experții folosesc aceste informații brute pentru a dezvolta strategii de marketing. Este, de asemenea, folosit în domenii precum poliția, știința și inginerie.