데이터 마이닝에서 분류 사용
분류 보다 정확한 예측 및 분석을 돕기 위해 데이터 컬렉션에 범주를 할당하는 데이터 마이닝 기술입니다. 분류는 매우 큰 데이터 세트를 효과적으로 분석하기 위한 여러 방법 중 하나입니다.
왜 분류인가?
오늘날의 세계에서 매우 큰 데이터베이스가 표준이 되고 있습니다. 빅 데이터. 테라바이트의 데이터가 있는 데이터베이스를 상상해 보십시오. 테라바이트 하나다 일조 데이터 바이트. 페이스북 단독으로 매일 600테라바이트의 새로운 데이터를 처리합니다(이 사양을 마지막으로 보고한 2014년 기준). 빅 데이터의 주요 과제는 그것을 이해하는 방법입니다.
그리고 엄청난 양만이 문제가 아닙니다. 빅 데이터는 또한 다양하고 비구조적이며 빠르게 변화하는 경향이 있습니다. 오디오 및 비디오 데이터, 소셜 미디어 게시물, 3D 데이터 또는 지리 공간 데이터를 고려하십시오. 이러한 종류의 데이터는 쉽게 분류되거나 정리되지 않습니다.
이 문제를 해결하기 위해 유용한 정보를 추출하는 다양한 자동 방법이 개발되었습니다. 분류.

분류 작동 방식
분석가의 목표는 질문에 답하거나 결정을 내리거나 행동을 예측하는 분류 규칙 집합을 만드는 것입니다. 시작하려면 특정 속성 집합과 가능한 결과를 포함하는 훈련 데이터 집합이 개발됩니다. 분류 알고리즘의 역할은 속성 집합이 어떻게 결론에 도달하는지 발견하는 것입니다.
어떤 잠재 고객이 신용 카드 제안을 받아야 하는지 결정하려고 하는 신용 카드 회사를 생각해 보십시오.
회사의 교육 데이터에는 다음이 포함될 수 있습니다.
이름 | 나이 | 성별 | 연간 소득 | 신용카드 제공 |
---|---|---|---|---|
존 도우 | 25 | 미디엄 | $39,500 | 아니요 |
제인 도우 | 56 | NS | $125,000 | 예 |
예측 변수 열 나이, 성별, 그리고 연간 소득 "예측자 속성"의 값을 결정합니다. 신용카드 제공. 훈련 세트에서 예측자 속성이 알려져 있습니다. 그런 다음 분류 알고리즘은 예측자 속성 값에 도달한 방법을 결정하려고 시도합니다. 예측자와 결정 사이에는 어떤 관계가 있습니까? 일반적으로 IF/THEN 문과 같은 일련의 예측 규칙을 개발합니다.
분명히 이것은 간단한 예이며 알고리즘은 여기에 표시된 두 레코드보다 훨씬 더 큰 데이터 샘플링이 필요합니다. 또한 예측 규칙은 속성 세부 정보를 캡처하는 하위 규칙을 포함하여 훨씬 더 복잡할 수 있습니다.
다음으로 알고리즘에는 분석할 데이터의 "예측 세트"가 제공되지만 이 세트에는 예측 속성(또는 결정)이 없습니다.
이름 | 나이 | 성별 | 연간 소득 | 신용카드 제공 |
---|---|---|---|---|
잭 프로스트 | 42 | 미디엄 | $88,000 | |
메리 머레이 | 16 | NS | $0 |
이 예측 데이터는 예측 규칙의 정확도를 추정하는 데 도움이 되며 개발자가 예측이 효과적이고 유용하다고 생각할 때까지 규칙을 조정합니다.
분류의 일상적인 예
분류 및 기타 데이터 마이닝 기술은 소비자로서의 일상적인 경험의 이면에 있습니다. 날씨 예측은 분류 기술을 사용하여 날이 비가 올 것인지, 화창할 것인지 또는 흐릴 것인지 보고합니다. 의료 전문가는 건강 상태를 분석하여 가능한 의료 결과를 예측합니다. 분류 방법의 일종으로, 나이브 베이지안, 조건부 확률을 사용하여 스팸 이메일을 분류합니다.