Définition de la régression et comment elle est utilisée dans l'exploration de données
La régression est un exploration de données technique utilisée pour prédire une plage de valeurs numériques (également appelée valeurs continues), étant donné un ensemble de données particulier. Par exemple, la régression peut être utilisée pour prédire le coût d'un produit ou d'un service, compte tenu d'autres variables.
La régression est utilisée dans plusieurs secteurs pour la planification commerciale et marketing, les prévisions financières, la modélisation environnementale et l'analyse des tendances.
Régression vs. Classification
Régression et classification sont des techniques d'exploration de données utilisées pour résoudre des problèmes similaires, mais elles sont souvent confondues. Les deux sont utilisés dans l'analyse de prédiction, mais la régression est utilisée pour prédire une valeur numérique ou continue tandis que la classification attribue des données en catégories discrètes.
Par exemple, la régression serait utilisée pour prédire la valeur d'une maison en fonction de son emplacement, de ses pieds carrés, du prix de la dernière vente, du prix de maisons similaires et d'autres facteurs. La classification serait de mise si vous vouliez plutôt organiser les maisons en catégories, telles que le potentiel piétonnier, la taille du terrain ou les taux de criminalité.
Types de techniques de régression
La forme de régression la plus simple et la plus ancienne est la régression linéaire utilisée pour estimer une relation entre deux variables. Cette technique utilise la formule mathématique d'une ligne droite (y = mx + b). En termes clairs, cela signifie simplement que, étant donné un graphique avec un axe Y et un axe X, la relation entre X et Y est une ligne droite avec quelques valeurs aberrantes. Par exemple, nous pourrions supposer que, compte tenu d'une augmentation de la population, la production alimentaire augmenterait au même rythme - cela nécessite une relation linéaire forte entre les deux chiffres. Pour visualiser cela, considérons un graphique dans lequel l'axe Y suit l'augmentation de la population et l'axe X suit la production alimentaire. Au fur et à mesure que la valeur Y augmente, la valeur X augmentera au même rythme, faisant de la relation entre eux une ligne droite.
Des techniques avancées, telles que la régression multiple, prédisent une relation entre plusieurs variables — par exemple, existe-t-il une corrélation entre le revenu, l'éducation et l'endroit où l'on choisit de vivre? L'ajout de plus de variables augmente considérablement la complexité de la prédiction. Il existe plusieurs types de techniques de régression multiple, notamment standard, hiérarchique, par ensemble et par étapes, chacune avec sa propre application.
À ce stade, il est important de comprendre ce que nous essayons de prédire (la dépendance ou prédit variable) et le Les données nous utilisons pour faire la prédiction (l'indépendant ou prédicteur variables). Dans notre exemple, nous voulons prédire l'endroit où l'on choisit de vivre (le prédit variable) compte tenu du revenu et de l'éducation (les deux prédicteur variables).
- Régression multiple standardconsidère toutes les variables prédictives en même temps. Par exemple 1) quelle est la relation entre le revenu et l'éducation (prédicteurs) et le choix du quartier (prédit); et 2) dans quelle mesure chacun des prédicteurs individuels contribue-t-il à cette relation ?
- Régression multiple pas à pas répond à une question totalement différente. Un algorithme de régression pas à pas analysera quels prédicteurs sont les mieux utilisés pour prédire le choix du voisinage — ce qui signifie que le modèle pas à pas évalue l'ordre d'importance des variables prédictives et sélectionne ensuite un sous-ensemble. Ce type de problème de régression utilise des « étapes » pour développer l'équation de régression. Compte tenu de ce type de régression, tous les prédicteurs peuvent même ne pas apparaître dans l'équation de régression finale.
- Régression hiérarchique, comme pas à pas, est un processus séquentiel, mais les variables prédictives sont entrées dans le modèle dans un ordre prédéfini défini à l'avance, c'est-à-dire que l'algorithme ne contient pas d'ensemble intégré d'équations pour déterminer l'ordre dans lequel entrer le prédicteurs. Ceci est utilisé le plus souvent lorsque la personne qui crée l'équation de régression a une connaissance approfondie du domaine.
- Régression par ensemble est également similaire à pas à pas, mais analyse des ensembles de variables plutôt que des variables individuelles.