Definizione di regressione e come viene utilizzata nel data mining

La regressione è un estrazione dei dati tecnica utilizzata per prevedere un intervallo di valori numerici (chiamata anche valori continui), dato un particolare set di dati. Ad esempio, la regressione potrebbe essere utilizzata per prevedere il costo di un prodotto o servizio, date altre variabili.

La regressione viene utilizzata in più settori per la pianificazione aziendale e di marketing, le previsioni finanziarie, la modellazione ambientale e l'analisi delle tendenze.

Regressione vs. Classificazione

Regressione e classificazione sono tecniche di data mining utilizzate per risolvere problemi simili, ma spesso vengono confuse. Entrambi sono utilizzati nell'analisi di previsione, ma la regressione viene utilizzata per prevedere un valore numerico o continuo mentre la classificazione assegna i dati in categorie discrete.

Ad esempio, la regressione verrebbe utilizzata per prevedere il valore di una casa in base alla sua posizione, ai piedi quadrati, al prezzo dell'ultima vendita, al prezzo di case simili e ad altri fattori. La classificazione sarebbe in ordine se volessi invece organizzare le case in categorie, come la pedonabilità, la dimensione del lotto o il tasso di criminalità.

Tipi di tecniche di regressione

La forma di regressione più semplice e antica è la regressione lineare utilizzata per stimare una relazione tra due variabili. Questa tecnica utilizza la formula matematica di una linea retta (y = mx + b). In parole povere, questo significa semplicemente che, dato un grafico con una Y e un asse X, la relazione tra X e Y è una linea retta con pochi valori anomali. Ad esempio, potremmo supporre che, dato un aumento della popolazione, la produzione alimentare aumenterebbe allo stesso ritmo: ciò richiede una relazione forte e lineare tra le due cifre. Per visualizzarlo, considera un grafico in cui l'asse Y segue l'aumento della popolazione e l'asse X segue la produzione di cibo. All'aumentare del valore Y, il valore X aumenterebbe alla stessa velocità, rendendo la relazione tra loro una linea retta.

Tecniche avanzate, come la regressione multipla, prevedono una relazione tra più variabili: ad esempio, esiste una correlazione tra reddito, istruzione e dove si sceglie di vivere? L'aggiunta di più variabili aumenta notevolmente la complessità della previsione. Esistono diversi tipi di tecniche di regressione multipla tra cui standard, gerarchico, setwise e stepwise, ognuna con la propria applicazione.

A questo punto, è importante capire cosa stiamo cercando di prevedere (il dipendente o predetto variabile) e il dati stiamo usando per fare la previsione (l'indipendente o predittore variabili). Nel nostro esempio, vogliamo prevedere il luogo in cui si sceglie di vivere (il predetto variabile) dato reddito e istruzione (entrambi predittore variabili).

  • Regressione multipla standardconsidera tutte le variabili predittive contemporaneamente. Ad esempio 1) qual è il rapporto tra reddito e istruzione (predittori) e scelta del quartiere (previsto); e 2) in che misura ciascuno dei singoli predittori contribuisce a tale relazione?
  • Regressione multipla graduale risponde a una domanda completamente diversa. Un algoritmo di regressione graduale analizzerà quali predittori sono meglio utilizzati per prevedere la scelta del quartiere - il che significa che il modello stepwise valuta l'ordine di importanza delle variabili predittive e quindi seleziona una rilevante sottoinsieme. Questo tipo di problema di regressione utilizza "passaggi" per sviluppare l'equazione di regressione. Dato questo tipo di regressione, tutti i predittori potrebbero non apparire nemmeno nell'equazione di regressione finale.
  • Regressione gerarchica, come stepwise, è un processo sequenziale, ma le variabili predittive vengono immesse nel modello in un ordine prestabilito definito in anticipo, cioè l'algoritmo non contiene un insieme integrato di equazioni per determinare l'ordine in cui inserire il predittori. Questo è usato più spesso quando l'individuo che crea l'equazione di regressione ha una conoscenza approfondita del campo.
  • Regressione a set è anche simile a stepwise ma analizza insiemi di variabili piuttosto che singole variabili.