ADsP

Part3) 5장 3절 앙상블 분석

무니띵글사랑 2023. 5. 1. 00:46

with)데이터분석 준전문가_데이터에듀

3절 ) 앙상블 분석 

가) 정의

- 여러 개의 예측모형들을 만든 후 예측 모형들을 조합하여 하나의 최종 예측 모형을 만드는 방법

- 다중 모델 조합, 분류기 조합

 

나) 학습방법의 불안전성

- 학습자료의 작은 변화에 예측모형이 크게 변하는 경우 불안정한 학습 방법.'

- 가장 안정적인 방법: 1-Nearest Neighbor, 선형회귀모형

- 가장 불안정한 방법 : 의사결정나무 

 

다) 앙상블 기법 종류

1. 배깅

- 여러개의 붓스트랩 자료에 예측모형을 만든 후 결합

배깅

 

 

- 붓스트랩 : 주어진 자료에서 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료

  • 샘플에 한 번도 선택되지 않은 원데이터 비율 : 36.8% 

- 보팅: 여러 개의 모형으로부터 산출된 결과를 다수결에 의해서 최종 결과를 선정

보팅

 

  • 하드보팅 : 다수결의 원칙을 따르는 방식, 각각의 분류기의 결과값 중 가장 많은 걸 따름.
  • 소프트 보팅 : 분류기의 확룰을 더하고 각각 평균을 내서 확률이 제일 높은 값으로 결과값을 선정.

- 배깅에서는 가지치기 하지 않고 최대로 성장한 의사결정나무들을 활용 

- 모집단의 분포를 모르기 때문에 실제 문제에서는 평균 예측모델을 구할 수 없음

- 훈련자료를 모집단으로 생각하고 평균예측 모형을 구하여 분산을 줄이고 예측력을 향상시킴

 

2. 부스팅

- 예측력이 약한 모형들을 결합하여 강한 예측 모형을 만드는 방법

- Adaboost: 이진 분류 문제에서 랜덤 분류기보다 조금 더 좋은 분류기 n개에 각각 가중치를 설정하고 n개의 분류기를 결합하여 최종 분류기를 만드는 방법 제안

Adaboost

 

 

- 훈련오차를 빨리 그리고 쉽게 줄임

- 배깅에 비해 많은 경우 예측오차 향상됨.

- Adaboost의 성능이 배깅보다 뛰어난 경우가 많음 

 

3. 랜덤 포레스트

- 배깅, 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성 후 이를 선형 결합하여 최종 학습기를 만드는 방법 

- Random Forest 패키지는 Random Input 에 따른 Forest of Tree를 이용한 분류방법 

- 랜덤한 Forest에는 많은 트리들이 생성된다.

- 최종 결과에 대한 해석이 어렵다

- 예측력이 매우 높다

- 입력변수가 많은 경우 배깅,부스팅과 비슷하거나 좋은 예측력을 가진다.