Дата Мининг са кластерисањем К-средстава
Тхе к-значи да је алгоритам груписања а Претрага података и алат за машинско учење који се користи за груписање посматрања у групе повезаних посматрања без икаквог претходног знања о тим односима. Узорковањем, алгоритам покушава да покаже у којој категорији или кластеру подаци припадају, при чему је број кластера дефинисан вредношћу к.
Тхе к-значи да је алгоритам једна од најједноставнијих техника груписања и обично се користи у медицинском снимању, биометрији и сродним пољима. Предност од к-значи да груписање говори о вашим подацима (користећи своју форму без надзора), а не о вама мора да упути алгоритам о подацима на почетку (користећи надгледани облик алгоритам).
Понекад се назива Лојдов алгоритам, посебно у круговима рачунарских наука јер је стандардни алгоритам први предложио Стјуарт Лојд 1957. године. Термин "к-меанс" сковао је 1967. Џејмс Меквин.
Како функционише алгоритам К-Меанс
Тхе к-значи да је алгоритам еволутивни алгоритам који је добио име по начину рада. Алгоритам групише запажања у
- Алгоритам произвољно бира к тачке као почетни центри кластера (средња).
- Свака тачка у скупу података је додељена затвореном кластеру, на основу еуклидске удаљености између сваке тачке и сваког центра кластера.
- Сваки центар кластера се поново израчунава као просек тачака у том кластеру.
- Кораци 2 и 3 се понављају док се кластери не конвергирају. Конвергенција се може другачије дефинисати у зависности од имплементације, али то обично значи да или нема запажања промени групе када се кораци 2 и 3 понове, или да промене не чине материјалну разлику у дефиницији кластери.
Избор броја кластера
Један од главних недостатака за к-значи кластерисање је чињеница да морате навести број кластера као улаз у алгоритам. Како је дизајниран, алгоритам није у стању да одреди одговарајући број кластера и зависи од корисника да то унапред идентификује.
На пример, ако сте имали групу људи која ће бити груписана на основу бинарног родног идентитета као мушко или женско, позовите к-значи алгоритам који користи улаз к=3 би натерао људе у три кластера када само два, или унос од к=2, обезбедило би природније пристајање.
Слично, ако је група појединаца лако груписана на основу матичне државе и ви сте позвали к-значи алгоритам са улазом к=20, резултати могу бити превише генерализовани да би били ефикасни.
Из тог разлога, често је добра идеја експериментисати са различитим вредностима к да бисте идентификовали вредност која најбоље одговара вашим подацима. Такође ћете можда желети да истражите употребу други алгоритми за рударење података у вашој потрази за знањем наученим машинама.
ФАК
-
Шта је рударење података?
Претрага података је пракса анализирања огромних количина информација како би се пронашли трендови и обрасци. Ови подаци се често прикупљају из историје прегледања интернета неке особе, њених навика куповине, података о локацији и још много тога.
-
Како функционише рударење података?
Компаније обично прикупљају податке из програма награђивања, друштвених медија, маилинг листа и још много тога. Ти подаци се затим анализирају за обрасце и понашања. Ово је начин на који продавнице прехрамбених производа знају да се егг ног, на пример, добро продаје током сезоне празника, или зашто се огласи за потрепштине за камповање појављују у вашем фееду на друштвеним мрежама након што истражите то путовање у Сион.
-
Који су главни циљеви повезани са рударењем података?
Главни циљеви су проналажење увида, трендова и односа унутар великих количина података. Стручњаци користе ове сирове информације за развој маркетиншких стратегија. Такође се користи у областима као што су полиција, наука и инжењеринг.