데이터로그😎

0. 회귀 (Regression) 본문

머신러닝/지도 학습

0. 회귀 (Regression)

지연v'_'v 2023. 9. 4. 18:22

회귀란?

  • 변수들 간의 상관관계를 찾는 것
  • 여러개의 독립변수 & 한개의 종속변수 간의 상관관계를 모델링하는 기법
  • ex) 아파트 가격 = W1*방개수 + W2*방크기 + W3*학군...(W = 회귀계수/regression coefficient)
    • 독립변수(feature) = 방개수, 방크기, 학군
    • 종속변수 = 아파트 가격
    • W = 회귀계수
  • 주어진 피처와 결정 값(종속변수) 를 기반으로 학습을 통해 최적의 회귀 계수를 찾아내는 것.

회귀는 언제 사용하는가?

  • 예측하려는 값이 연속일 때 사용
  • 예측 결과가 숫자일 때 사용
    • 근속연수에 따른 임금.
    • 키에 따른 몸무게
    • 사용 기간에 따른 스마트폰 가격

 

회귀의 종류

독립변수 개수 회귀 계수의 결합
1개 (단일 회귀) 선형 (선형회귀)
여러 개 (다중 회귀) 비선형 (비선형 회귀)

* 선형회귀 + 비선형 회귀 → 딥러닝

 

회귀의 평가 지표

  • MAE; 오류를 절댓값으로 변환해 평균 —> 이상치있을 때 사용
  • MSE: 오류 제곱합을 평균
  • RMSE: MSE 루트 → 이상치에 민감(오차 제곱값을 루트한 것이다보니 오류를 더 극대화해서 보여줌)/ 이상치 적을 때.
  • R2 Score: 예측값 분산/실제값 분산= 높을 수록 예측 정확도 높음
  • ⚠️cross_val_score, GridSearchCV와 같은 scoring함수에 회귀 평가지표를 적용할 때 주의사항
    • 사이킷런의 scoring함수는 값이 클 수록 좋은 평가 결과라고 생각함.
    • 그런데 회귀는 '잔차, 오차'로 평가를 하기에 값이 작을 수록 좋은 결과임
    • 따라서 회귀의 로직을 반영하기 위해 오차값 앞에 - (negative)를 붙여서 값이 클수록 좋은 결과가 되도록 만듦.

'머신러닝 > 지도 학습' 카테고리의 다른 글

1. 선형 회귀 (Linear Regression)  (0) 2023.09.04
4-3. Boosting (부스팅)  (0) 2023.09.04
4-2. Bagging (배깅)  (0) 2023.09.04
4-1. Voting  (0) 2023.09.04
4. Ensemble (앙상블)  (0) 2023.09.04