Exploration de données avec le clustering K-Means
Les k-signifie que l'algorithme de clustering est un exploration de données et un outil d'apprentissage automatique utilisé pour regrouper les observations en groupes d'observations connexes sans aucune connaissance préalable de ces relations. Par échantillonnage, l'algorithme tente de montrer à quelle catégorie, ou cluster, les données appartiennent, le nombre de clusters étant défini par la valeur k.
Les k-signifie que l'algorithme est l'une des techniques de clustering les plus simples et qu'il est couramment utilisé dans l'imagerie médicale, la biométrie et les domaines connexes. L'avantage de k-signifie que le clustering parle de vos données (en utilisant sa forme non supervisée) plutôt que de vous devoir instruire l'algorithme sur les données au départ (en utilisant la forme supervisée du algorithme).
Il est parfois appelé Algorithme de Lloyd, en particulier dans les milieux informatiques car l'algorithme standard a été proposé pour la première fois par Stuart Lloyd en 1957. Le terme "k-means" a été inventé en 1967 par James McQueen.
Comment fonctionne l'algorithme K-Means
Les k-signifie algorithme est un algorithme évolutif qui tire son nom de son mode de fonctionnement. L'algorithme regroupe les observations en k groupes, où k est fourni comme paramètre d'entrée. Il attribue ensuite chaque observation à des clusters en fonction de la proximité de l'observation par rapport à la moyenne du cluster. La moyenne du cluster est alors recalculée et le processus recommence. Voici comment fonctionne l'algorithme:
- L'algorithme sélectionne arbitrairement k points comme centres de cluster initiaux (les moyens).
- Chaque point de l'ensemble de données est affecté au cluster fermé, en fonction de la distance euclidienne entre chaque point et chaque centre de cluster.
- Chaque centre de cluster est recalculé comme la moyenne des points de ce cluster.
- Les étapes 2 et 3 se répètent jusqu'à ce que les clusters convergent. La convergence peut être définie différemment selon la mise en œuvre, mais cela signifie normalement qu'aucune observation changer les groupes lorsque les étapes 2 et 3 sont répétées, ou que les changements ne font pas de différence significative dans la définition de la groupes.
Choix du nombre de clusters
L'un des principaux inconvénients de k-signifie que le clustering est le fait que vous devez spécifier le nombre de clusters en entrée de l'algorithme. Tel qu'il est conçu, l'algorithme n'est pas capable de déterminer le nombre approprié de clusters et dépend de l'utilisateur pour l'identifier à l'avance.
Par exemple, si vous aviez un groupe de personnes à regrouper sur la base d'une identité de genre binaire en tant qu'homme ou femme, appeler le k-signifie algorithme utilisant l'entrée k=3 forcerait les gens en trois groupes quand seulement deux, ou une entrée de k=2, offrirait un ajustement plus naturel.
De même, si un groupe d'individus était facilement regroupé en fonction de l'état d'origine et que vous appeliez le k-signifie algorithme avec l'entrée k=20, les résultats pourraient être trop généralisés pour être efficaces.
Pour cette raison, c'est souvent une bonne idée d'expérimenter avec différentes valeurs de k pour identifier la valeur qui convient le mieux à vos données. Vous pouvez également souhaiter explorer l'utilisation de autres algorithmes d'exploration de données dans votre quête de connaissances apprises par machine.
FAQ
-
Qu'est-ce que l'exploration de données ?
Exploration de données est la pratique consistant à analyser d'énormes quantités d'informations pour rechercher des tendances et des modèles. Ces données sont souvent recueillies à partir de l'historique de navigation sur Internet d'une personne, de ses habitudes d'achat, de ses données de localisation, etc.
-
Comment fonctionne l'exploration de données ?
Les entreprises collectent généralement des données à partir de programmes de récompenses, de réseaux sociaux, de listes de diffusion, etc. Ces données sont ensuite analysées pour les modèles et les comportements. C'est ainsi que les épiceries savent que le lait de poule se vend beaucoup pendant la saison des vacances, par exemple, ou pourquoi des publicités pour des fournitures de camping apparaissent dans votre flux de médias sociaux après avoir recherché ce voyage à Sion.
-
Quels sont les principaux objectifs associés au data mining ?
Les principaux objectifs sont de trouver des idées, des tendances et des relations au sein de grandes quantités de données. Les experts utilisent ces informations brutes pour développer des stratégies de marketing. Il est également utilisé dans des domaines comme la police, la science et l'ingénierie.