Definición de regresión y cómo se usa en la minería de datos

La regresión es una procesamiento de datos técnica utilizada para predecir un rango de valores numéricos (también llamado valores continuos), dado un conjunto de datos en particular. Por ejemplo, la regresión podría usarse para predecir el costo de un producto o servicio, dadas otras variables.

La regresión se utiliza en múltiples industrias para la planificación comercial y de marketing, la previsión financiera, el modelado ambiental y el análisis de tendencias.

Regresión vs. Clasificación

Regresión y clasificación son técnicas de minería de datos que se utilizan para resolver problemas similares, pero con frecuencia se confunden. Ambos se utilizan en el análisis de predicción, pero la regresión se utiliza para predecir un valor numérico o continuo, mientras que la clasificación asigna los datos en categorías discretas.

Por ejemplo, la regresión se utilizaría para predecir el valor de una vivienda en función de su ubicación, pies cuadrados, precio de la última venta, precio de viviendas similares y otros factores. La clasificación estaría en orden si, en cambio, quisiera organizar las casas en categorías, como accesibilidad para peatones, tamaño del lote o tasas de criminalidad.

Tipos de técnicas de regresión

La forma de regresión más simple y antigua es la regresión lineal que se utiliza para estimar una relación entre dos variables. Esta técnica utiliza la fórmula matemática de una línea recta (y = mx + b). En términos sencillos, esto simplemente significa que, dado un gráfico con un eje Y y un eje X, la relación entre X e Y es una línea recta con pocos valores atípicos. Por ejemplo, podríamos suponer que, dado un aumento en la población, la producción de alimentos aumentaría al mismo ritmo; esto requiere una relación lineal fuerte entre las dos cifras. Para visualizar esto, considere un gráfico en el que el eje Y rastrea el aumento de la población y el eje X rastrea la producción de alimentos. A medida que aumenta el valor de Y, el valor de X aumentaría a la misma velocidad, haciendo que la relación entre ellos sea una línea recta.

Las técnicas avanzadas, como la regresión múltiple, predicen una relación entre múltiples variables; por ejemplo, ¿existe una correlación entre los ingresos, la educación y el lugar donde uno elige vivir? La adición de más variables aumenta considerablemente la complejidad de la predicción. Hay varios tipos de técnicas de regresión múltiple, incluidas las estándar, jerárquicas, segmentadas y escalonadas, cada una con su propia aplicación.

En este punto, es importante comprender lo que estamos tratando de predecir (el dependiente o predicho variable) y la datos que estamos usando para hacer la predicción (el independiente o vaticinador variables). En nuestro ejemplo, queremos predecir la ubicación donde uno elige vivir (el predicho variable) dados los ingresos y la educación (ambos vaticinador variables).

  • Regresión múltiple estándarconsidera todas las variables predictoras al mismo tiempo. Por ejemplo 1) ¿cuál es la relación entre los ingresos y la educación (predictores) y la elección del vecindario (predicha)? y 2) ¿en qué medida cada uno de los predictores individuales contribuye a esa relación?
  • Regresión múltiple escalonada responde una pregunta completamente diferente. Un algoritmo de regresión por pasos analizará qué predictores se utilizan mejor para predecir la elección del vecindario: lo que significa que el modelo por pasos evalúa el orden de importancia de las variables predictoras y luego selecciona un subconjunto. Este tipo de problema de regresión utiliza "pasos" para desarrollar la ecuación de regresión. Dado este tipo de regresión, es posible que todos los predictores ni siquiera aparezcan en la ecuación de regresión final.
  • Regresión jerárquica, al igual que por pasos, es un proceso secuencial, pero las variables predictoras se ingresan en el modelo en un orden predefinido definido de antemano, es decir, el algoritmo no contiene un conjunto integrado de ecuaciones para determinar el orden en el que introducir el predictores. Esto se usa con mayor frecuencia cuando la persona que crea la ecuación de regresión tiene un conocimiento experto del campo.
  • Regresión de Setwise también es similar a paso a paso, pero analiza conjuntos de variables en lugar de variables individuales.