Zastosowanie klasyfikacji w eksploracji danych

December 02, 2021
WInternet, Sieć I Bezpieczeństwo W Sieci

click fraud protection

Klasyfikacja to technika eksploracji danych, która przypisuje kategorie do zbioru danych, aby pomóc w dokładniejszych przewidywaniach i analizach. Klasyfikacja jest jedną z kilku metod mających na celu uczynienie analizy bardzo dużych zbiorów danych skuteczną.

Dlaczego klasyfikacja?

Bardzo duże bazy danych stają się normą w dzisiejszym świecie duże zbiory danych. Wyobraź sobie bazę danych z terabajtami danych — a terabajt jest jeden kwintylion bajty danych. Facebook sam przetwarza 600 terabajtów nowych danych każdego dnia (stan na 2014 r., kiedy ostatni raz zgłaszał te specyfikacje). Podstawowym wyzwaniem związanym z big data jest to, jak nadać temu sens.

A sama wielkość to nie jedyny problem: duże zbiory danych również są zróżnicowane, nieustrukturyzowane i szybko się zmieniają. Weź pod uwagę dane audio i wideo, posty w mediach społecznościowych, dane 3D lub dane geoprzestrzenne. Tego rodzaju danych nie da się łatwo skategoryzować ani uporządkować.

Aby sprostać temu wyzwaniu, opracowano szereg automatycznych metod wydobywania przydatnych informacji, m.in.: Klasyfikacja.

Skupiona bizneswoman patrząc na ekran projekcyjny — Obrazy bohaterów/obrazy Getty

Jak działa klasyfikacja

Celem analityka jest stworzenie zestawu reguł klasyfikacji, które odpowiadają na pytanie, podejmują decyzję lub przewidują zachowanie. Na początek opracowywany jest zestaw danych treningowych, który zawiera określony zestaw atrybutów, a także prawdopodobny wynik. Zadaniem algorytmu klasyfikacji jest odkrycie, w jaki sposób ten zestaw atrybutów dochodzi do wniosku.

Rozważ firmę wydającą karty kredytowe, która próbuje ustalić, którzy potencjalni klienci powinni otrzymać ofertę karty kredytowej.

Dane szkoleniowe firmy mogą obejmować:

Nazwa	Wiek	Płeć	Roczny dochód	Oferta karty kredytowej
nieznany z nazwiska	25	m	$39,500	Nie
Jane Łania	56	F	$125,000	tak

Dane treningowe

Kolumny predyktorów Wiek, Płeć, oraz Roczny dochód określić wartość „atrybutu predyktora” Oferta karty kredytowej. W zestawie uczącym znany jest atrybut predyktora. Następnie algorytm klasyfikacji próbuje określić, w jaki sposób osiągnięto wartość atrybutu predyktora: jakie relacje istnieją między predyktorami a decyzją? Opracuje zestaw reguł predykcji, zwykle instrukcję IF/THEN.

Oczywiście jest to prosty przykład, a algorytm wymagałby znacznie większego próbkowania danych niż dwa pokazane tutaj rekordy. Co więcej, reguły przewidywania będą prawdopodobnie znacznie bardziej złożone, w tym reguły podrzędne do przechwytywania szczegółów atrybutów.

Następnie algorytm otrzymuje „zestaw predykcji” danych do analizy, ale w tym zestawie brakuje atrybutu predykcji (lub decyzji):

Nazwa	Wiek	Płeć	Roczny dochód	Oferta karty kredytowej
Dziadek Mróz	42	m	$88,000
Mary Murray	16	F	$0

Dane predyktora

Te dane predyktora pomagają oszacować dokładność reguł prognozowania, które są następnie modyfikowane, dopóki programista nie uzna prognoz za skuteczne i użyteczne.

Przykłady codziennej klasyfikacji

Klasyfikacja i inne techniki eksploracji danych leżą u podstaw naszego codziennego doświadczenia jako konsumentów. Prognozy pogody wykorzystują techniki klasyfikacji do zgłaszania, czy dzień będzie deszczowy, słoneczny czy pochmurny. Zawód medyczny analizuje stan zdrowia, aby przewidzieć prawdopodobne wyniki medyczne. rodzaj metody klasyfikacji, naiwny bayesowski, używa prawdopodobieństwa warunkowego do kategoryzacji wiadomości spamowych.