Дефиниција регресије и како се користи у рударењу података

Регресија је а Претрага података техника која се користи за предвиђање опсега нумеричких вредности (такође тзв континуиране вредности), дати одређени скуп података. На пример, регресија се може користити за предвиђање цене производа или услуге, с обзиром на друге варијабле.

Регресија се користи у више индустрија за планирање пословања и маркетинга, финансијско предвиђање, моделирање животне средине и анализу трендова.

Регресија вс. Класификација

Регресија и класификација су технике рударења података које се користе за решавање сличних проблема, али се често збуњују. Оба се користе у анализи предвиђања, али се регресија користи за предвиђање нумеричке или континуиране вредности док класификација додељује податке у дискретне категорије.

На пример, регресија би се користила за предвиђање вредности куће на основу њене локације, квадратних метара, цене када је последња продата, цене сличних домова и других фактора. Класификација би била у реду ако бисте уместо тога желели да организујете куће у категорије, као што су проходност, величина парцеле или стопа криминала.

Врсте техника регресије

Најједноставнији и најстарији облик регресије је линеарна регресија која се користи за процену односа између две променљиве. Ова техника користи математичку формулу праве линије (и = мк + б). Јасно речено, ово једноставно значи да је, дат граф са И и Кс-осом, однос између Кс и И права линија са неколико изузетака. На пример, могли бисмо претпоставити да би, с обзиром на повећање популације, производња хране порасла истом брзином - то захтева јак, линеаран однос између две бројке. Да бисте ово визуелизовали, размотрите графикон у коме И-оса прати пораст популације, а Кс-оса прати производњу хране. Како се вредност И повећава, вредност Кс би се повећавала истом брзином, чинећи однос између њих праволинијски.

Напредне технике, као што је вишеструка регресија, предвиђају везу између више варијабли - на пример, да ли постоји корелација између прихода, образовања и места на коме неко бира да живи? Додавање више варијабли значајно повећава сложеност предвиђања. Постоји неколико типова техника вишеструке регресије укључујући стандардну, хијерархијску, постепену и постепену, од којих свака има своју примену.

У овом тренутку, важно је разумети шта покушавамо да предвидимо (зависни или предвидео променљива) и података користимо за предвиђање (независни или предиктор Променљиве). У нашем примеру желимо да предвидимо локацију на којој неко одлучи да живи ( предвидео променљива) с обзиром на приход и образовање (и једно и друго предиктор Променљиве).

  • Стандардна вишеструка регресијаразматра све предикторске варијабле у исто време. На пример 1) какав је однос између прихода и образовања (предиктори) и избора суседства (предвиђено); и 2) у којој мери сваки од појединачних предиктора доприноси том односу?
  • Постепена вишеструка регресија одговара на сасвим друго питање. Алгоритам постепене регресије ће анализирати који предиктори се најбоље користе за предвиђање избора суседства - што значи да поступни модел процењује редослед важности предикторских варијабли и затим бира релевантну подсет. Овај тип проблема регресије користи „кораке“ за развој једначине регресије. С обзиром на ову врсту регресије, сви предиктори се можда неће ни појавити у коначној једначини регресије.
  • Хијерархијска регресија, као и корак по корак, је секвенцијални процес, али се променљиве предиктора уносе у модел унапред дефинисаним редоследом дефинисаним унапред, тј. алгоритам не садржи уграђени скуп једначина за одређивање редоследа уноса предиктори. Ово се најчешће користи када појединац који креира регресиону једначину има стручно знање из ове области.
  • Сетвисе регрессион је такође сличан степвисе али анализира скупове варијабли, а не појединачне варијабле.