Zastosowanie klasyfikacji w eksploracji danych

click fraud protection

Klasyfikacja to technika eksploracji danych, która przypisuje kategorie do zbioru danych, aby pomóc w dokładniejszych przewidywaniach i analizach. Klasyfikacja jest jedną z kilku metod mających na celu uczynienie analizy bardzo dużych zbiorów danych skuteczną.

Dlaczego klasyfikacja?

Bardzo duże bazy danych stają się normą w dzisiejszym świecie duże zbiory danych. Wyobraź sobie bazę danych z terabajtami danych — a terabajt jest jeden kwintylion bajty danych. Facebook sam przetwarza 600 terabajtów nowych danych każdego dnia (stan na 2014 r., kiedy ostatni raz zgłaszał te specyfikacje). Podstawowym wyzwaniem związanym z big data jest to, jak nadać temu sens.

A sama wielkość to nie jedyny problem: duże zbiory danych również są zróżnicowane, nieustrukturyzowane i szybko się zmieniają. Weź pod uwagę dane audio i wideo, posty w mediach społecznościowych, dane 3D lub dane geoprzestrzenne. Tego rodzaju danych nie da się łatwo skategoryzować ani uporządkować.

Aby sprostać temu wyzwaniu, opracowano szereg automatycznych metod wydobywania przydatnych informacji, m.in.: Klasyfikacja.

Skupiona bizneswoman patrząc na ekran projekcyjny
Obrazy bohaterów/obrazy Getty

Jak działa klasyfikacja

Celem analityka jest stworzenie zestawu reguł klasyfikacji, które odpowiadają na pytanie, podejmują decyzję lub przewidują zachowanie. Na początek opracowywany jest zestaw danych treningowych, który zawiera określony zestaw atrybutów, a także prawdopodobny wynik. Zadaniem algorytmu klasyfikacji jest odkrycie, w jaki sposób ten zestaw atrybutów dochodzi do wniosku.

Rozważ firmę wydającą karty kredytowe, która próbuje ustalić, którzy potencjalni klienci powinni otrzymać ofertę karty kredytowej.

Dane szkoleniowe firmy mogą obejmować:

Nazwa Wiek Płeć Roczny dochód Oferta karty kredytowej
nieznany z nazwiska 25 m $39,500 Nie
Jane Łania 56 F $125,000 tak
Dane treningowe

Kolumny predyktorów Wiek, Płeć, oraz Roczny dochód określić wartość „atrybutu predyktora” Oferta karty kredytowej. W zestawie uczącym znany jest atrybut predyktora. Następnie algorytm klasyfikacji próbuje określić, w jaki sposób osiągnięto wartość atrybutu predyktora: jakie relacje istnieją między predyktorami a decyzją? Opracuje zestaw reguł predykcji, zwykle instrukcję IF/THEN.

Oczywiście jest to prosty przykład, a algorytm wymagałby znacznie większego próbkowania danych niż dwa pokazane tutaj rekordy. Co więcej, reguły przewidywania będą prawdopodobnie znacznie bardziej złożone, w tym reguły podrzędne do przechwytywania szczegółów atrybutów.

Następnie algorytm otrzymuje „zestaw predykcji” danych do analizy, ale w tym zestawie brakuje atrybutu predykcji (lub decyzji):

Nazwa Wiek Płeć Roczny dochód Oferta karty kredytowej
Dziadek Mróz 42 m $88,000
Mary Murray 16 F $0
Dane predyktora

Te dane predyktora pomagają oszacować dokładność reguł prognozowania, które są następnie modyfikowane, dopóki programista nie uzna prognoz za skuteczne i użyteczne.

Przykłady codziennej klasyfikacji

Klasyfikacja i inne techniki eksploracji danych leżą u podstaw naszego codziennego doświadczenia jako konsumentów. Prognozy pogody wykorzystują techniki klasyfikacji do zgłaszania, czy dzień będzie deszczowy, słoneczny czy pochmurny. Zawód medyczny analizuje stan zdrowia, aby przewidzieć prawdopodobne wyniki medyczne. rodzaj metody klasyfikacji, naiwny bayesowski, używa prawdopodobieństwa warunkowego do kategoryzacji wiadomości spamowych.