K-Means 클러스터링을 사용한 데이터 마이닝

click fraud protection

NS 케이-클러스터링 알고리즘은 데이터 수집 그리고 그러한 관계에 대한 사전 지식 없이 관찰을 관련 관찰 그룹으로 클러스터링하는 데 사용되는 기계 학습 도구. 샘플링을 통해 알고리즘은 값으로 정의되는 클러스터 수와 함께 데이터가 속한 범주 또는 클러스터를 표시하려고 시도합니다. 케이.

NS 케이-수단 알고리즘은 가장 단순한 클러스터링 기술 중 하나로 의료 영상, 생체 인식 및 관련 분야에서 일반적으로 사용됩니다. 장점 케이-클러스터링은 사용자가 아닌 데이터(비지도 형식을 사용하여)에 대해 알려준다는 것을 의미합니다. 시작 시 데이터에 대해 알고리즘에 지시해야 함(감독된 형식을 사용하여 연산).

그것은 때때로 로이드의 알고리즘, 특히 컴퓨터 과학 분야에서 표준 알고리즘이 1957년 Stuart Lloyd에 의해 처음 제안되었기 때문입니다. "k-means"라는 용어는 1967년 James McQueen에 의해 만들어졌습니다.

K-평균 알고리즘이 작동하는 방식

NS 케이-알고리즘은 작동 방법에서 이름을 얻은 진화 알고리즘임을 의미합니다. 알고리즘은 관측치를 다음으로 클러스터링합니다. 케이 그룹, 어디 케이 입력 매개변수로 제공됩니다. 그런 다음 클러스터 평균에 대한 관측값의 근접성을 기반으로 각 관측값을 클러스터에 할당합니다. 그런 다음 클러스터의 평균이 다시 계산되고 프로세스가 다시 시작됩니다. 알고리즘 작동 방식은 다음과 같습니다.

  1. 알고리즘이 임의로 선택 케이 점은 초기 군집 중심(평균)입니다.
  2. 데이터 세트의 각 점은 각 점과 각 군집 중심 사이의 유클리드 거리를 기반으로 닫힌 군집에 할당됩니다.
  3. 각 군집 중심은 해당 군집에 있는 포인트의 평균으로 다시 계산됩니다.
  4. 클러스터가 수렴할 때까지 2단계와 3단계를 반복합니다. 수렴은 구현에 따라 다르게 정의될 수 있지만 일반적으로 관찰 2단계와 3단계를 반복할 때 클러스터를 변경하거나 변경으로 인해 클러스터.

클러스터 수 선택

의 주요 단점 중 하나는 케이-클러스터링은 알고리즘에 대한 입력으로 클러스터 수를 지정해야 한다는 사실을 의미합니다. 설계된 대로 알고리즘은 적절한 클러스터 수를 결정할 수 없으며 사용자가 이를 미리 식별해야 합니다.

예를 들어 남성 또는 여성이라는 이진 성 정체성을 기반으로 클러스터링할 사람들의 그룹이 있는 경우 케이-입력을 사용하는 알고리즘을 의미 k=3 2개만 있을 때 사람들을 3개의 클러스터로 만들거나 k=2, 보다 자연스러운 핏을 선사합니다.

유사하게, 개인 그룹이 집 상태를 기반으로 쉽게 클러스터링되고 귀하가 전화를 걸면 케이-입력이 있는 알고리즘을 의미합니다. k=20, 결과가 너무 일반화되어 효과가 없을 수 있습니다.

이러한 이유로 다양한 값으로 실험하는 것이 좋습니다. 케이 데이터에 가장 적합한 값을 식별합니다. 당신은 또한 다른 데이터 마이닝 알고리즘 기계 학습 지식을 추구합니다.

자주하는 질문

  • 데이터 마이닝이란 무엇입니까?

    데이터 수집 추세와 패턴을 찾기 위해 방대한 양의 정보를 분석하는 관행입니다. 이 데이터는 종종 개인의 인터넷 검색 기록, 쇼핑 습관, 위치 데이터 등에서 수집됩니다.

  • 데이터 마이닝은 어떻게 작동합니까?

    회사는 일반적으로 보상 프로그램, 소셜 미디어, 메일링 리스트 등에서 데이터를 수집합니다. 그 데이터는 패턴과 행동에 대해 분석됩니다. 이것은 식료품 가게에서 예를 들어 휴가철에 에그 노그가 크게 팔린다는 것을 알게 되거나 캠핑 용품 광고가 시온으로의 여행을 조사한 후 소셜 미디어 피드에 나타나는 이유를 알 수 있습니다.

  • 데이터 마이닝과 관련된 주요 목표는 무엇입니까?

    주요 목표는 많은 양의 데이터 내에서 통찰력, 추세 및 관계를 찾는 것입니다. 전문가들은 이 원시 정보를 사용하여 마케팅 전략을 개발합니다. 또한 치안, 과학 및 엔지니어링과 같은 분야에서도 사용됩니다.