with)데이터분석 준전문가_데이터에듀
3절 ) 앙상블 분석
가) 정의
- 여러 개의 예측모형들을 만든 후 예측 모형들을 조합하여 하나의 최종 예측 모형을 만드는 방법
- 다중 모델 조합, 분류기 조합
나) 학습방법의 불안전성
- 학습자료의 작은 변화에 예측모형이 크게 변하는 경우 불안정한 학습 방법.'
- 가장 안정적인 방법: 1-Nearest Neighbor, 선형회귀모형
- 가장 불안정한 방법 : 의사결정나무
다) 앙상블 기법 종류
1. 배깅
- 여러개의 붓스트랩 자료에 예측모형을 만든 후 결합
- 붓스트랩 : 주어진 자료에서 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료
- 샘플에 한 번도 선택되지 않은 원데이터 비율 : 36.8%
- 보팅: 여러 개의 모형으로부터 산출된 결과를 다수결에 의해서 최종 결과를 선정
- 하드보팅 : 다수결의 원칙을 따르는 방식, 각각의 분류기의 결과값 중 가장 많은 걸 따름.
- 소프트 보팅 : 분류기의 확룰을 더하고 각각 평균을 내서 확률이 제일 높은 값으로 결과값을 선정.
- 배깅에서는 가지치기 하지 않고 최대로 성장한 의사결정나무들을 활용
- 모집단의 분포를 모르기 때문에 실제 문제에서는 평균 예측모델을 구할 수 없음
- 훈련자료를 모집단으로 생각하고 평균예측 모형을 구하여 분산을 줄이고 예측력을 향상시킴
2. 부스팅
- 예측력이 약한 모형들을 결합하여 강한 예측 모형을 만드는 방법
- Adaboost: 이진 분류 문제에서 랜덤 분류기보다 조금 더 좋은 분류기 n개에 각각 가중치를 설정하고 n개의 분류기를 결합하여 최종 분류기를 만드는 방법 제안
- 훈련오차를 빨리 그리고 쉽게 줄임
- 배깅에 비해 많은 경우 예측오차 향상됨.
- Adaboost의 성능이 배깅보다 뛰어난 경우가 많음
3. 랜덤 포레스트
- 배깅, 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성 후 이를 선형 결합하여 최종 학습기를 만드는 방법
- Random Forest 패키지는 Random Input 에 따른 Forest of Tree를 이용한 분류방법
- 랜덤한 Forest에는 많은 트리들이 생성된다.
- 최종 결과에 대한 해석이 어렵다
- 예측력이 매우 높다
- 입력변수가 많은 경우 배깅,부스팅과 비슷하거나 좋은 예측력을 가진다.
'ADsP' 카테고리의 다른 글
Part3 ) 4장 통계분석_시계열분석 (0) | 2023.05.05 |
---|---|
Part3 - 4장 통계분석) _회귀분석 (0) | 2023.05.05 |
Part01_비즈니스 모델과 위기요인과 통제방안 (0) | 2023.05.04 |
Part 03] 5장 6절 연관분석 (0) | 2023.05.02 |
Part 03 _데이터 분석] 5장 정형 데이터 마이닝(1) (0) | 2023.04.30 |