Употреба класификације у рударењу података
Класификација је техника рударења података која додељује категорије колекцији података како би помогла у прецизнијим предвиђањима и анализи. Класификација је једна од неколико метода које имају за циљ да учине ефикасном анализу веома великих скупова података.
Зашто класификација?
Веома велике базе података постају норма у данашњем свету Велики података. Замислите базу података са терабајтима података—а терабајт је један трилиона бајтова података. Фејсбук сама обрађује 600 терабајта нових података сваког дана (од 2014. године, последњи пут када је пријавио ове спецификације). Примарни изазов великих података је како им дати смисао.
И сам обим није једини проблем: велики подаци такође имају тенденцију да буду разнолики, неструктурирани и брзо се мењају. Узмите у обзир аудио и видео податке, објаве на друштвеним мрежама, 3Д податке или геопросторне податке. Ова врста података није лако категоризована или организована.
Да би се одговорило на овај изазов, развијен је низ аутоматских метода за издвајање корисних информација, међу њима класификација.
Како функционише класификација
Циљ аналитичара је да створи скуп класификационих правила која одговарају на питање, доносе одлуку или предвиђају понашање. За почетак, развија се скуп података за обуку који садржи одређени скуп атрибута као и вероватан исход. Задатак класификационог алгоритма је да открије како тај скуп атрибута долази до свог закључка.
Замислите компанију која издаје кредитне картице која покушава да одреди који потенцијални клијенти треба да добију понуду кредитне картице.
Подаци о обуци компаније могу укључивати:
Име | Старост | Пол | Годишњи приход | Понуда кредитне картице |
---|---|---|---|---|
Н.Н. лице | 25 | М | $39,500 | Не |
Јане Дое | 56 | Ф | $125,000 | да |
Колоне предиктора Старост, Пол, и Годишњи приход одредити вредност "атрибута предиктора" Понуда кредитне картице. У скупу за обуку, атрибут предиктора је познат. Класификациони алгоритам затим покушава да утврди како је достигнута вредност атрибута предиктора: какве везе постоје између предиктора и одлуке? Развиће скуп правила предвиђања, обично изјаву ИФ/ТХЕН.
Очигледно, ово је једноставан пример и алгоритам би требао далеко веће узорковање података од два записа приказана овде. Даље, правила предвиђања ће вероватно бити далеко сложенија, укључујући подправила за хватање детаља о атрибутима.
Затим, алгоритму се даје „скуп за предвиђање“ података за анализу, али овом скупу недостаје атрибут предвиђања (или одлука):
Име | Старост | Пол | Годишњи приход | Понуда кредитне картице |
---|---|---|---|---|
Деда Мраз | 42 | М | $88,000 | |
Мари Мурраи | 16 | Ф | $0 |
Ови предикторски подаци помажу да се процени тачност правила предвиђања, а правила се затим прилагођавају све док програмер не сматра предвиђања делотворним и корисним.
Примери класификације из дана у дан
Класификација и друге технике прикупљања података стоје иза великог дела нашег свакодневног искуства као потрошача. Предвиђања времена користе технике класификације да би пријавила да ли ће дан бити кишовит, сунчан или облачан. Медицинска професија анализира здравствене услове како би предвидела вероватне медицинске исходе. Врста методе класификације, Наиве Баиесиан, користи условну вероватноћу за категоризацију нежељене е-поште.