Дата Мининг са кластерисањем К-средстава

December 02, 2021
УИнтернет, умрежавање и безбедност Широм веба

Тхе к-значи да је алгоритам груписања а Претрага података и алат за машинско учење који се користи за груписање посматрања у групе повезаних посматрања без икаквог претходног знања о тим односима. Узорковањем, алгоритам покушава да покаже у којој категорији или кластеру подаци припадају, при чему је број кластера дефинисан вредношћу к.

Тхе к-значи да је алгоритам једна од најједноставнијих техника груписања и обично се користи у медицинском снимању, биометрији и сродним пољима. Предност од к-значи да груписање говори о вашим подацима (користећи своју форму без надзора), а не о вама мора да упути алгоритам о подацима на почетку (користећи надгледани облик алгоритам).

Понекад се назива Лојдов алгоритам, посебно у круговима рачунарских наука јер је стандардни алгоритам први предложио Стјуарт Лојд 1957. године. Термин "к-меанс" сковао је 1967. Џејмс Меквин.

Како функционише алгоритам К-Меанс

Тхе к-значи да је алгоритам еволутивни алгоритам који је добио име по начину рада. Алгоритам групише запажања у

к групе, где к је обезбеђен као улазни параметар. Затим свако посматрање додељује кластерима на основу близине посматрања средњој вредности кластера. Затим се поново израчунава средња вредност кластера и процес почиње поново. Ево како алгоритам функционише:

Алгоритам произвољно бира к тачке као почетни центри кластера (средња).
Свака тачка у скупу података је додељена затвореном кластеру, на основу еуклидске удаљености између сваке тачке и сваког центра кластера.
Сваки центар кластера се поново израчунава као просек тачака у том кластеру.
Кораци 2 и 3 се понављају док се кластери не конвергирају. Конвергенција се може другачије дефинисати у зависности од имплементације, али то обично значи да или нема запажања промени групе када се кораци 2 и 3 понове, или да промене не чине материјалну разлику у дефиницији кластери.

Избор броја кластера

Један од главних недостатака за к-значи кластерисање је чињеница да морате навести број кластера као улаз у алгоритам. Како је дизајниран, алгоритам није у стању да одреди одговарајући број кластера и зависи од корисника да то унапред идентификује.

На пример, ако сте имали групу људи која ће бити груписана на основу бинарног родног идентитета као мушко или женско, позовите к-значи алгоритам који користи улаз к=3 би натерао људе у три кластера када само два, или унос од к=2, обезбедило би природније пристајање.

Слично, ако је група појединаца лако груписана на основу матичне државе и ви сте позвали к-значи алгоритам са улазом к=20, резултати могу бити превише генерализовани да би били ефикасни.

Из тог разлога, често је добра идеја експериментисати са различитим вредностима к да бисте идентификовали вредност која најбоље одговара вашим подацима. Такође ћете можда желети да истражите употребу други алгоритми за рударење података у вашој потрази за знањем наученим машинама.

ФАК

Шта је рударење података?

Претрага података је пракса анализирања огромних количина информација како би се пронашли трендови и обрасци. Ови подаци се често прикупљају из историје прегледања интернета неке особе, њених навика куповине, података о локацији и још много тога.
Како функционише рударење података?

Компаније обично прикупљају податке из програма награђивања, друштвених медија, маилинг листа и још много тога. Ти подаци се затим анализирају за обрасце и понашања. Ово је начин на који продавнице прехрамбених производа знају да се егг ног, на пример, добро продаје током сезоне празника, или зашто се огласи за потрепштине за камповање појављују у вашем фееду на друштвеним мрежама након што истражите то путовање у Сион.
Који су главни циљеви повезани са рударењем података?

Главни циљеви су проналажење увида, трендова и односа унутар великих количина података. Стручњаци користе ове сирове информације за развој маркетиншких стратегија. Такође се користи у областима као што су полиција, наука и инжењеринг.