데이터로그😎
0. 회귀 (Regression) 본문
회귀란?
- 변수들 간의 상관관계를 찾는 것
- 여러개의 독립변수 & 한개의 종속변수 간의 상관관계를 모델링하는 기법
- ex) 아파트 가격 = W1*방개수 + W2*방크기 + W3*학군...(W = 회귀계수/regression coefficient)
- 독립변수(feature) = 방개수, 방크기, 학군
- 종속변수 = 아파트 가격
- W = 회귀계수
- 주어진 피처와 결정 값(종속변수) 를 기반으로 학습을 통해 최적의 회귀 계수를 찾아내는 것.
회귀는 언제 사용하는가?
- 예측하려는 값이 연속일 때 사용
- 예측 결과가 숫자일 때 사용
- 근속연수에 따른 임금.
- 키에 따른 몸무게
- 사용 기간에 따른 스마트폰 가격
회귀의 종류
독립변수 개수 | 회귀 계수의 결합 |
1개 (단일 회귀) | 선형 (선형회귀) |
여러 개 (다중 회귀) | 비선형 (비선형 회귀) |
* 선형회귀 + 비선형 회귀 → 딥러닝
회귀의 평가 지표
- MAE; 오류를 절댓값으로 변환해 평균 —> 이상치있을 때 사용
- MSE: 오류 제곱합을 평균
- RMSE: MSE 루트 → 이상치에 민감(오차 제곱값을 루트한 것이다보니 오류를 더 극대화해서 보여줌)/ 이상치 적을 때.
- R2 Score: 예측값 분산/실제값 분산= 높을 수록 예측 정확도 높음
- ⚠️cross_val_score, GridSearchCV와 같은 scoring함수에 회귀 평가지표를 적용할 때 주의사항
- 사이킷런의 scoring함수는 값이 클 수록 좋은 평가 결과라고 생각함.
- 그런데 회귀는 '잔차, 오차'로 평가를 하기에 값이 작을 수록 좋은 결과임
- 따라서 회귀의 로직을 반영하기 위해 오차값 앞에 - (negative)를 붙여서 값이 클수록 좋은 결과가 되도록 만듦.
'머신러닝 > 지도 학습' 카테고리의 다른 글
1. 선형 회귀 (Linear Regression) (0) | 2023.09.04 |
---|---|
4-3. Boosting (부스팅) (0) | 2023.09.04 |
4-2. Bagging (배깅) (0) | 2023.09.04 |
4-1. Voting (0) | 2023.09.04 |
4. Ensemble (앙상블) (0) | 2023.09.04 |