L'utilisation de la classification dans l'exploration de données

Classification est une technique d'exploration de données qui attribue des catégories à une collection de données pour aider à des prédictions et des analyses plus précises. La classification est l'une des nombreuses méthodes destinées à rendre efficace l'analyse de très grands ensembles de données.

Pourquoi classer?

Les très grandes bases de données deviennent la norme dans le monde d'aujourd'hui Big Data. Imaginez une base de données avec des téraoctets de données—un téraoctet est une mille milliards octets de données. Facebook à lui seul, il traite 600 téraoctets de nouvelles données chaque jour (en 2014, la dernière fois qu'il a signalé ces spécifications). Le principal défi du big data est de savoir comment lui donner un sens.

Et le volume n'est pas le seul problème: les mégadonnées ont également tendance à être diverses, non structurées et en évolution rapide. Tenez compte des données audio et vidéo, des publications sur les réseaux sociaux, des données 3D ou des données géospatiales. Ce type de données n'est pas facile à catégoriser ou à organiser.

Pour relever ce défi, une gamme de méthodes automatiques d'extraction d'informations utiles a été développée, parmi lesquelles classification.

Femme d'affaires focalisée regardant l'écran de projection
Images de héros/Getty Images

Comment fonctionne la classification

L'objectif d'un analyste est de créer un ensemble de règles de classification qui répondent à une question, prennent une décision ou prédisent un comportement. Pour commencer, un ensemble de données d'entraînement est développé qui contient un certain ensemble d'attributs ainsi que le résultat probable. Le travail de l'algorithme de classification est de découvrir comment cet ensemble d'attributs atteint sa conclusion.

Prenons l'exemple d'une société émettrice de cartes de crédit qui essaie de déterminer quels prospects devraient recevoir une offre de carte de crédit.

Les données de formation de l'entreprise peuvent inclure:

Nom Âge Genre Revenu annuel Offre de carte de crédit
John Doe 25 M $39,500 Non
Jane Doe 56 F $125,000 Oui
Données d'entraînement

Les colonnes de prédiction Âge, Genre, et Revenu annuel déterminer la valeur de "l'attribut prédicteur" Offre de carte de crédit. Dans un ensemble d'apprentissage, l'attribut prédicteur est connu. L'algorithme de classification tente alors de déterminer comment la valeur de l'attribut prédicteur a été atteinte: quelles relations existent entre les prédicteurs et la décision? Il développera un ensemble de règles de prédiction, généralement une instruction IF/THEN.

De toute évidence, il s'agit d'un exemple simple, et l'algorithme aurait besoin d'un échantillonnage de données beaucoup plus important que les deux enregistrements présentés ici. De plus, les règles de prédiction sont susceptibles d'être beaucoup plus complexes, y compris des sous-règles pour capturer les détails des attributs.

Ensuite, l'algorithme reçoit un « ensemble de prédictions » de données à analyser, mais il manque à cet ensemble l'attribut de prédiction (ou décision):

Nom Âge Genre Revenu annuel Offre de carte de crédit
Jack Frost 42 M $88,000
Marie Murray 16 F $0
Données du prédicteur

Ces données de prédiction aident à estimer la précision des règles de prédiction, et les règles sont ensuite ajustées jusqu'à ce que le développeur considère les prédictions efficaces et utiles.

Exemples de classification au jour le jour

La classification et d'autres techniques d'exploration de données sont à l'origine d'une grande partie de notre expérience quotidienne en tant que consommateurs. Les prévisions météorologiques utilisent des techniques de classification pour indiquer si la journée sera pluvieuse, ensoleillée ou nuageuse. La profession médicale analyse les conditions de santé pour prédire les résultats médicaux probables. Un type de méthode de classification, Bayésien naïf, utilise la probabilité conditionnelle pour classer les courriers indésirables.