Definicja regresji i sposób jej wykorzystania w eksploracji danych

click fraud protection

Regresja jest eksploracja danych technika stosowana do przewidywania zakresu wartości liczbowych (zwana również wartości ciągłe), biorąc pod uwagę konkretny zbiór danych. Na przykład regresji można użyć do przewidywania kosztu produktu lub usługi, biorąc pod uwagę inne zmienne.

Regresja jest stosowana w wielu branżach do planowania biznesowego i marketingowego, prognozowania finansowego, modelowania środowiskowego i analizy trendów.

Regresja a Klasyfikacja

Regresja i Klasyfikacja to techniki eksploracji danych używane do rozwiązywania podobnych problemów, ale często są one mylone. Oba są używane w analizie predykcyjnej, ale regresja służy do przewidywania wartości liczbowej lub ciągłej, podczas gdy klasyfikacja przypisuje dane do dyskretnych kategorii.

Na przykład regresja może być używana do przewidywania wartości domu na podstawie jego lokalizacji, stóp kwadratowych, ceny ostatniej sprzedaży, ceny podobnych domów i innych czynników. Klasyfikacja byłaby właściwa, gdybyś zamiast tego chciał podzielić domy na kategorie, takie jak możliwość chodzenia, wielkość parceli lub wskaźniki przestępczości.

Rodzaje technik regresji

Najprostszą i najstarszą formą regresji jest regresja liniowa stosowana do oszacowania związku między dwiema zmiennymi. Ta technika wykorzystuje matematyczny wzór linii prostej (y = mx + b). Mówiąc prościej, oznacza to po prostu, że mając wykres z osią Y i X, związek między X i Y jest linią prostą z kilkoma wartościami odstającymi. Na przykład możemy założyć, że przy wzroście populacji produkcja żywności wzrośnie w tym samym tempie — wymaga to silnej, liniowej zależności między tymi dwiema liczbami. Aby to zobrazować, rozważ wykres, na którym oś Y śledzi wzrost populacji, a oś X śledzi produkcję żywności. Wraz ze wzrostem wartości Y, wartość X będzie rosła w tym samym tempie, czyniąc związek między nimi linią prostą.

Zaawansowane techniki, takie jak regresja wielokrotna, przewidują związek między wieloma zmiennymi — na przykład, czy istnieje korelacja między dochodem, wykształceniem i miejscem zamieszkania? Dodanie większej liczby zmiennych znacznie zwiększa złożoność prognozy. Istnieje kilka rodzajów technik regresji wielokrotnej, w tym standardowe, hierarchiczne, setwise i krokowe, z których każda ma swoje własne zastosowanie.

W tym momencie ważne jest, aby zrozumieć, co próbujemy przewidzieć (zależne lub przewidywany zmienna) i dane używamy do przewidywania (niezależne lub urządzenie prognozujące zmienne). W naszym przykładzie chcemy przewidzieć lokalizację, w której ktoś zdecyduje się zamieszkać ( przewidywany zmienna) podane dochody i wykształcenie (zarówno urządzenie prognozujące zmienne).

  • Standardowa regresja wielokrotnauwzględnia wszystkie zmienne predyktorów w tym samym czasie. Na przykład 1) jaki jest związek między dochodem i wykształceniem (predyktory) a wyborem sąsiedztwa (przewidywany); oraz 2) w jakim stopniu każdy z indywidualnych predyktorów przyczynia się do tego związku?
  • Stopniowa regresja wielokrotna odpowiada na zupełnie inne pytanie. Algorytm regresji krokowej przeanalizuje, które predyktory najlepiej wykorzystać do przewidzenia wyboru sąsiedztwa — co oznacza, że ​​model krokowy ocenia kolejność ważności zmiennych predykcyjnych, a następnie wybiera odpowiedni podzbiór. Ten typ problemu regresji wykorzystuje „kroki” do opracowania równania regresji. Biorąc pod uwagę ten typ regresji, wszystkie predyktory mogą nawet nie pojawić się w końcowym równaniu regresji.
  • Regresja hierarchiczna, podobnie jak krokowy, jest procesem sekwencyjnym, ale zmienne predykcyjne są wprowadzane do modelu w określonym z góry porządku określonym z góry, tj. algorytm nie zawiera wbudowanego zestawu równań określających kolejność wprowadzania predyktory. Jest to używane najczęściej, gdy osoba tworząca równanie regresji ma specjalistyczną wiedzę w tej dziedzinie.
  • Setwise regresja jest również podobny do krokowego, ale analizuje zbiory zmiennych, a nie pojedyncze zmienne.