K-Means 클러스터링을 사용한 데이터 마이닝

December 02, 2021
에인터넷, 네트워킹 및 보안 웹 주변

NS 케이-클러스터링 알고리즘은 데이터 수집 그리고 그러한 관계에 대한 사전 지식 없이 관찰을 관련 관찰 그룹으로 클러스터링하는 데 사용되는 기계 학습 도구. 샘플링을 통해 알고리즘은 값으로 정의되는 클러스터 수와 함께 데이터가 속한 범주 또는 클러스터를 표시하려고 시도합니다. 케이.

NS 케이-수단 알고리즘은 가장 단순한 클러스터링 기술 중 하나로 의료 영상, 생체 인식 및 관련 분야에서 일반적으로 사용됩니다. 장점 케이-클러스터링은 사용자가 아닌 데이터(비지도 형식을 사용하여)에 대해 알려준다는 것을 의미합니다. 시작 시 데이터에 대해 알고리즘에 지시해야 함(감독된 형식을 사용하여 연산).

그것은 때때로 로이드의 알고리즘, 특히 컴퓨터 과학 분야에서 표준 알고리즘이 1957년 Stuart Lloyd에 의해 처음 제안되었기 때문입니다. "k-means"라는 용어는 1967년 James McQueen에 의해 만들어졌습니다.

K-평균 알고리즘이 작동하는 방식

NS 케이-알고리즘은 작동 방법에서 이름을 얻은 진화 알고리즘임을 의미합니다. 알고리즘은 관측치를 다음으로 클러스터링합니다. 케이 그룹, 어디 케이 입력 매개변수로 제공됩니다. 그런 다음 클러스터 평균에 대한 관측값의 근접성을 기반으로 각 관측값을 클러스터에 할당합니다. 그런 다음 클러스터의 평균이 다시 계산되고 프로세스가 다시 시작됩니다. 알고리즘 작동 방식은 다음과 같습니다.

알고리즘이 임의로 선택 케이 점은 초기 군집 중심(평균)입니다.
데이터 세트의 각 점은 각 점과 각 군집 중심 사이의 유클리드 거리를 기반으로 닫힌 군집에 할당됩니다.
각 군집 중심은 해당 군집에 있는 포인트의 평균으로 다시 계산됩니다.
클러스터가 수렴할 때까지 2단계와 3단계를 반복합니다. 수렴은 구현에 따라 다르게 정의될 수 있지만 일반적으로 관찰 2단계와 3단계를 반복할 때 클러스터를 변경하거나 변경으로 인해 클러스터.

클러스터 수 선택

의 주요 단점 중 하나는 케이-클러스터링은 알고리즘에 대한 입력으로 클러스터 수를 지정해야 한다는 사실을 의미합니다. 설계된 대로 알고리즘은 적절한 클러스터 수를 결정할 수 없으며 사용자가 이를 미리 식별해야 합니다.

예를 들어 남성 또는 여성이라는 이진 성 정체성을 기반으로 클러스터링할 사람들의 그룹이 있는 경우 케이-입력을 사용하는 알고리즘을 의미 k=3 2개만 있을 때 사람들을 3개의 클러스터로 만들거나 k=2, 보다 자연스러운 핏을 선사합니다.

유사하게, 개인 그룹이 집 상태를 기반으로 쉽게 클러스터링되고 귀하가 전화를 걸면 케이-입력이 있는 알고리즘을 의미합니다. k=20, 결과가 너무 일반화되어 효과가 없을 수 있습니다.

이러한 이유로 다양한 값으로 실험하는 것이 좋습니다. 케이 데이터에 가장 적합한 값을 식별합니다. 당신은 또한 다른 데이터 마이닝 알고리즘 기계 학습 지식을 추구합니다.

자주하는 질문

데이터 마이닝이란 무엇입니까?

데이터 수집 추세와 패턴을 찾기 위해 방대한 양의 정보를 분석하는 관행입니다. 이 데이터는 종종 개인의 인터넷 검색 기록, 쇼핑 습관, 위치 데이터 등에서 수집됩니다.
데이터 마이닝은 어떻게 작동합니까?

회사는 일반적으로 보상 프로그램, 소셜 미디어, 메일링 리스트 등에서 데이터를 수집합니다. 그 데이터는 패턴과 행동에 대해 분석됩니다. 이것은 식료품 가게에서 예를 들어 휴가철에 에그 노그가 크게 팔린다는 것을 알게 되거나 캠핑 용품 광고가 시온으로의 여행을 조사한 후 소셜 미디어 피드에 나타나는 이유를 알 수 있습니다.
데이터 마이닝과 관련된 주요 목표는 무엇입니까?

주요 목표는 많은 양의 데이터 내에서 통찰력, 추세 및 관계를 찾는 것입니다. 전문가들은 이 원시 정보를 사용하여 마케팅 전략을 개발합니다. 또한 치안, 과학 및 엔지니어링과 같은 분야에서도 사용됩니다.