El uso de la clasificación en la minería de datos

Clasificación es una técnica de extracción de datos que asigna categorías a una colección de datos para ayudar a realizar predicciones y análisis más precisos. La clasificación es uno de varios métodos destinados a hacer efectivo el análisis de conjuntos de datos muy grandes.

¿Por qué clasificación?

Bases de datos muy grandes se están convirtiendo en la norma en el mundo actual de big data. Imagine una base de datos con terabytes de datos: una terabyte es uno trillón bytes de datos. Facebook solo procesa 600 terabytes de datos nuevos todos los días (a partir de 2014, la última vez que informó estas especificaciones). El principal desafío del big data es cómo darle sentido.

Y el volumen no es el único problema: el big data también tiende a ser diverso, desestructurado y cambiante. Considere datos de audio y video, publicaciones en redes sociales, datos 3D o datos geoespaciales. Este tipo de datos no se clasifican u organizan fácilmente.

Para hacer frente a este desafío, se ha desarrollado una gama de métodos automáticos para extraer información útil, entre ellos clasificación.

Empresaria centrada mirando hacia la pantalla de proyección
Hero Images / Getty Images

Cómo funciona la clasificación

El objetivo de un analista es crear un conjunto de reglas de clasificación que respondan una pregunta, tomen una decisión o predigan un comportamiento. Para empezar, se desarrolla un conjunto de datos de entrenamiento que contiene un determinado conjunto de atributos, así como el resultado probable. El trabajo del algoritmo de clasificación es descubrir cómo ese conjunto de atributos llega a su conclusión.

Considere una compañía de tarjetas de crédito que intenta determinar qué prospectos deberían recibir una oferta de tarjeta de crédito.

Los datos de formación de la empresa pueden incluir:

Nombre La edad Género Ingresos anuales Oferta de tarjeta de crédito
John Doe 25 METRO $39,500 No
fulano de tal 56 F $125,000
Datos de entrenamiento

Las columnas predictoras La edad, Género, y Ingresos anuales determinar el valor del "atributo predictor" Oferta de tarjeta de crédito. En un conjunto de entrenamiento, se conoce el atributo predictor. Luego, el algoritmo de clasificación intenta determinar cómo se alcanzó el valor del atributo predictor: ¿qué relaciones existen entre los predictores y la decisión? Desarrollará un conjunto de reglas de predicción, generalmente una declaración SI / ENTONCES.

Obviamente, este es un ejemplo simple y el algoritmo necesitaría un muestreo de datos mucho mayor que los dos registros que se muestran aquí. Además, es probable que las reglas de predicción sean mucho más complejas, incluidas las subreglas para capturar detalles de atributos.

A continuación, el algoritmo recibe un "conjunto de predicciones" de datos para analizar, pero este conjunto carece del atributo de predicción (o decisión):

Nombre La edad Género Ingresos anuales Oferta de tarjeta de crédito
Jack Frost 42 METRO $88,000
María Murray 16 F $0
Datos del predictor

Estos datos de predicción ayudan a estimar la precisión de las reglas de predicción, y luego las reglas se modifican hasta que el desarrollador considera que las predicciones son efectivas y útiles.

Ejemplos de clasificación diaria

La clasificación y otras técnicas de extracción de datos están detrás de gran parte de nuestra experiencia diaria como consumidores. Las predicciones meteorológicas utilizan técnicas de clasificación para informar si el día será lluvioso, soleado o nublado. La profesión médica analiza las condiciones de salud para predecir los probables resultados médicos. Un tipo de método de clasificación, Ingenuo bayesiano, utiliza la probabilidad condicional para clasificar los correos electrónicos no deseados.