Definiția regresiei și cum este utilizată în data mining
Regresia este a extragerea datelor tehnică utilizată pentru a prezice o gamă de valori numerice (numită și valori continue), dat un anumit set de date. De exemplu, regresia poate fi folosită pentru a prezice costul unui produs sau serviciu, având în vedere alte variabile.
Regresia este utilizată în mai multe industrii pentru planificarea afacerilor și de marketing, prognoza financiară, modelarea mediului și analiza tendințelor.
Regresie vs. Clasificare
Regresia și clasificare sunt tehnici de data mining folosite pentru a rezolva probleme similare, dar sunt adesea confundate. Ambele sunt utilizate în analiza predicției, dar regresia este utilizată pentru a prezice o valoare numerică sau continuă, în timp ce clasificarea atribuie datele în categorii discrete.
De exemplu, regresia ar fi folosită pentru a prezice valoarea unei case în funcție de locația acesteia, de metri pătrați, de prețul la ultima vânzare, de prețul caselor similare și de alți factori. Clasificarea ar fi corectă dacă ați dori, în schimb, să organizați casele pe categorii, cum ar fi accesibilitatea pe jos, dimensiunea lotului sau rata criminalității.
Tipuri de tehnici de regresie
Cea mai simplă și mai veche formă de regresie este regresia liniară utilizată pentru a estima o relație între două variabile. Această tehnică folosește formula matematică a unei linii drepte (y = mx + b). În termeni simpli, aceasta înseamnă pur și simplu că, având în vedere un grafic cu axa Y și X, relația dintre X și Y este o linie dreaptă cu puține valori aberante. De exemplu, am putea presupune că, având în vedere o creștere a populației, producția de alimente ar crește în același ritm - acest lucru necesită o relație puternică, liniară între cele două cifre. Pentru a vizualiza acest lucru, luați în considerare un grafic în care axa Y urmărește creșterea populației, iar axa X urmărește producția de alimente. Pe măsură ce valoarea Y crește, valoarea X ar crește în aceeași rată, făcând relația dintre ele o linie dreaptă.
Tehnicile avansate, cum ar fi regresia multiplă, prezic o relație între mai multe variabile - de exemplu, există o corelație între venit, educație și locul unde alegem să locuiești? Adăugarea mai multor variabile crește considerabil complexitatea predicției. Există mai multe tipuri de tehnici de regresie multiplă, inclusiv standard, ierarhice, setwise și stepwise, fiecare cu propria sa aplicație.
În acest moment, este important să înțelegem ceea ce încercăm să prezicem (dependentul sau prezis variabilă) și cel date folosim pentru a face predicția (independentul sau predictor variabile). În exemplul nostru, dorim să prezicăm locația în care cineva alege să locuiască ( prezis variabilă) având în vedere venitul și educația (ambele predictor variabile).
- Regresie multiplă standardia în considerare toate variabilele predictoare în același timp. De exemplu 1) care este relația dintre venit și educație (predictori) și alegerea cartierului (prevăzut); și 2) în ce măsură fiecare dintre predictorii individuali contribuie la acea relație?
- Regresie multiplă în trepte răspunde la o cu totul altă întrebare. Un algoritm de regresie treptat va analiza care predictori sunt cei mai bine utilizați pentru a prezice alegerea vecinătății - ceea ce înseamnă că modelul în trepte evaluează ordinea de importanță a variabilelor predictoare și apoi selectează unul relevant subset. Acest tip de problemă de regresie folosește „pași” pentru a dezvolta ecuația de regresie. Având în vedere acest tip de regresie, toți predictorii pot să nu apară nici măcar în ecuația finală de regresie.
- Regresie ierarhică, la fel ca în pas, este un proces secvenţial, dar variabilele predictoare sunt introduse în model într-o ordine pre-specificată definită în avans, adică algoritmul nu conține un set încorporat de ecuații pentru a determina ordinea în care se introduce predictori. Acesta este folosit cel mai des atunci când persoana care creează ecuația de regresie are cunoștințe de specialitate în domeniu.
- Regresia setwise este, de asemenea, similar cu pasul, dar analizează mai degrabă seturi de variabile decât variabile individuale.