회귀 정의 및 데이터 마이닝에서 사용되는 방법

회귀는 데이터 수집 숫자 값의 범위를 예측하는 데 사용되는 기술(또는 연속 값), 특정 데이터 세트가 주어집니다. 예를 들어, 회귀는 다른 변수가 주어지면 제품이나 서비스의 비용을 예측하는 데 사용될 수 있습니다.

회귀는 비즈니스 및 마케팅 계획, 재무 예측, 환경 모델링 및 추세 분석을 위해 여러 산업에서 사용됩니다.

회귀 대 분류

회귀 및 분류 유사한 문제를 해결하는 데 사용되는 데이터 마이닝 기술이지만 자주 혼동됩니다. 둘 다 예측 분석에 사용되지만 회귀는 숫자 또는 연속 값을 예측하는 데 사용되는 반면 분류는 데이터를 이산 범주로 할당합니다.

예를 들어, 회귀는 위치, 평방 피트, 마지막 판매 시 가격, 유사한 주택의 가격 및 기타 요소를 기반으로 주택의 가치를 예측하는 데 사용됩니다. 주택을 보행 가능성, 부지 크기 또는 범죄율과 같은 범주로 대신 구성하려면 분류가 필요합니다.

회귀 기법의 유형

가장 간단하고 오래된 회귀 형식은 두 변수 간의 관계를 추정하는 데 사용되는 선형 회귀입니다. 이 기술은 직선의 수학 공식(y = mx + b)을 사용합니다. 간단히 말해서, 이것은 단순히 Y와 X축이 있는 그래프가 주어지면 X와 Y 사이의 관계가 이상값이 거의 없는 직선임을 의미합니다. 예를 들어, 인구가 증가하면 식량 생산이 같은 비율로 증가할 것이라고 가정할 수 있습니다. 이를 위해서는 두 수치 사이에 강력하고 선형적인 관계가 필요합니다. 이를 시각화하기 위해 Y축이 인구 증가를 추적하고 X축이 식량 생산을 추적하는 그래프를 고려하십시오. Y 값이 증가함에 따라 X 값도 동일한 비율로 증가하여 둘 사이의 관계가 직선이 됩니다.

다중 회귀와 같은 고급 기술은 여러 변수 간의 관계를 예측합니다. 예를 들어 소득, 교육 및 거주 지역 간에 상관 관계가 있습니까? 더 많은 변수를 추가하면 예측의 복잡성이 상당히 증가합니다. 표준, 계층, 집합 및 단계를 포함한 여러 유형의 다중 회귀 기술이 있으며 각각 고유한 응용 프로그램이 있습니다.

이 시점에서 우리가 예측하려고 하는 것을 이해하는 것이 중요합니다(종속 또는

예측 변수) 및 데이터 우리는 예측(독립 또는 예언자 변수). 이 예에서 우리는 살기로 선택한 위치( 예측 가변) 주어진 소득과 교육(둘 다 예언자 변수).

  • 표준 다중 회귀모든 예측 변수를 동시에 고려합니다. 예를 들어 1) 소득과 교육(예측)과 이웃 선택(예측) 사이의 관계는 무엇입니까? 2) 각각의 개별 예측변수가 그 관계에 어느 정도 기여하는가?
  • 단계적 다중 회귀 완전히 다른 질문에 답합니다. 단계적 회귀 알고리즘은 이웃 선택을 예측하는 데 가장 잘 사용되는 예측 변수를 분석합니다. 단계적 모델이 예측 변수의 중요도를 평가한 다음 관련성을 선택하는 것을 의미합니다. 하위 집합입니다. 이러한 유형의 회귀 문제는 "단계"를 사용하여 회귀 방정식을 개발합니다. 이러한 유형의 회귀가 주어지면 모든 예측 변수가 최종 회귀 방정식에 나타나지 않을 수도 있습니다.
  • 계층적 회귀, 단계적으로와 마찬가지로 순차적 프로세스이지만 예측 변수는 미리 정의된 순서로 모델에 입력됩니다. 사전에, 즉 알고리즘에는 입력 순서를 결정하기 위한 내장 방정식 세트가 포함되어 있지 않습니다. 예측자. 이는 회귀식을 생성하는 개인이 해당 분야에 대한 전문적인 지식을 가지고 있을 때 가장 많이 사용됩니다.
  • 세트와이즈 회귀 또한 단계적과 유사하지만 개별 변수가 아닌 변수 집합을 분석합니다.