Utilizarea clasificării în data mining
Clasificare este o tehnică de extragere a datelor care atribuie categorii unei colecții de date pentru a ajuta la predicții și analize mai precise. Clasificarea este una dintre metodele menite să facă eficientă analiza unor seturi de date foarte mari.
De ce clasificare?
Bazele de date foarte mari devin norma în lumea de astăzi Date mare. Imaginați-vă o bază de date cu terabytes de date—a terabyte este unul trilion octeți de date. Facebook singur strânge 600 de terabytes de date noi în fiecare zi (din 2014, ultima dată când a raportat aceste specificații). Principala provocare a datelor mari este cum să le înțelegem.
Iar volumul mare nu este singura problemă: datele mari tind, de asemenea, să fie diverse, nestructurate și în schimbare rapidă. Luați în considerare datele audio și video, postările pe rețelele sociale, datele 3D sau datele geospațiale. Acest tip de date nu este ușor de clasificat sau organizat.
Pentru a face față acestei provocări, a fost dezvoltată o serie de metode automate de extragere a informațiilor utile, printre acestea clasificare.

Cum funcționează clasificarea
Scopul unui analist este de a crea un set de reguli de clasificare care să răspundă la o întrebare, să ia o decizie sau să prezică un comportament. Pentru început, este dezvoltat un set de date de antrenament care conține un anumit set de atribute, precum și rezultatul probabil. Sarcina algoritmului de clasificare este să descopere modul în care acel set de atribute ajunge la concluzie.
Luați în considerare o companie de carduri de credit care încearcă să stabilească ce perspective ar trebui să primească o ofertă de card de credit.
Datele de instruire ale companiei pot include:
Nume | Vârstă | Gen | Venit anual | Oferta card de credit |
---|---|---|---|---|
John Doe | 25 | M | $39,500 | Nu |
femeie necunoscută | 56 | F | $125,000 | da |
Coloanele cu predictori Vârstă, Gen, și Venit anual determinați valoarea „atributului predictor” Oferta card de credit. Într-un set de antrenament, atributul predictor este cunoscut. Algoritmul de clasificare încearcă apoi să determine cum a fost atinsă valoarea atributului predictor: ce relații există între predictori și decizie? Acesta va dezvolta un set de reguli de predicție, de obicei o instrucțiune IF/THEN.
Evident, acesta este un exemplu simplu, iar algoritmul ar avea nevoie de o eșantionare a datelor mult mai mare decât cele două înregistrări prezentate aici. În plus, este posibil ca regulile de predicție să fie mult mai complexe, inclusiv subreguli pentru a capta detaliile atributelor.
În continuare, algoritmului i se oferă un „set de predicție” de date de analizat, dar acestui set îi lipsește atributul de predicție (sau decizia):
Nume | Vârstă | Gen | Venit anual | Oferta card de credit |
---|---|---|---|---|
Jack Frost | 42 | M | $88,000 | |
Mary Murray | 16 | F | $0 |
Aceste date de predicție ajută la estimarea acurateței regulilor de predicție, iar regulile sunt apoi modificate până când dezvoltatorul consideră predicțiile eficiente și utile.
Exemple zilnice de clasificare
Clasificarea și alte tehnici de extragere a datelor se află în spatele unei mari experiențe de zi cu zi ca consumatori. Previziunile meteo folosesc tehnici de clasificare pentru a raporta dacă ziua va fi ploioasă, însorită sau înnorată. Profesia medicală analizează condițiile de sănătate pentru a prezice rezultatele medicale probabile. Un tip de metodă de clasificare, Bayesian naiv, folosește probabilitatea condiționată pentru a clasifica e-mailurile spam.