Part3) 5장 3절 앙상블 분석

ADsP

Part3) 5장 3절 앙상블 분석

무니띵글사랑 2023. 5. 1. 00:46

with)데이터분석 준전문가_데이터에듀

3절 ) 앙상블 분석

가) 정의

- 여러 개의 예측모형들을 만든 후 예측 모형들을 조합하여 하나의 최종 예측 모형을 만드는 방법

- 다중 모델 조합, 분류기 조합

나) 학습방법의 불안전성

- 학습자료의 작은 변화에 예측모형이 크게 변하는 경우 불안정한 학습 방법.'

- 가장 안정적인 방법: 1-Nearest Neighbor, 선형회귀모형

- 가장 불안정한 방법 : 의사결정나무

다) 앙상블 기법 종류

1. 배깅

- 여러개의 붓스트랩 자료에 예측모형을 만든 후 결합

- 붓스트랩 : 주어진 자료에서 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료

샘플에 한 번도 선택되지 않은 원데이터 비율 : 36.8%

- 보팅: 여러 개의 모형으로부터 산출된 결과를 다수결에 의해서 최종 결과를 선정

하드보팅 : 다수결의 원칙을 따르는 방식, 각각의 분류기의 결과값 중 가장 많은 걸 따름.
소프트 보팅 : 분류기의 확룰을 더하고 각각 평균을 내서 확률이 제일 높은 값으로 결과값을 선정.

- 배깅에서는 가지치기 하지 않고 최대로 성장한 의사결정나무들을 활용

- 모집단의 분포를 모르기 때문에 실제 문제에서는 평균 예측모델을 구할 수 없음

- 훈련자료를 모집단으로 생각하고 평균예측 모형을 구하여 분산을 줄이고 예측력을 향상시킴

2. 부스팅

- 예측력이 약한 모형들을 결합하여 강한 예측 모형을 만드는 방법

- Adaboost: 이진 분류 문제에서 랜덤 분류기보다 조금 더 좋은 분류기 n개에 각각 가중치를 설정하고 n개의 분류기를 결합하여 최종 분류기를 만드는 방법 제안

- 훈련오차를 빨리 그리고 쉽게 줄임

- 배깅에 비해 많은 경우 예측오차 향상됨.

- Adaboost의 성능이 배깅보다 뛰어난 경우가 많음

3. 랜덤 포레스트

- 배깅, 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성 후 이를 선형 결합하여 최종 학습기를 만드는 방법

- Random Forest 패키지는 Random Input 에 따른 Forest of Tree를 이용한 분류방법

- 랜덤한 Forest에는 많은 트리들이 생성된다.

- 최종 결과에 대한 해석이 어렵다

- 예측력이 매우 높다

- 입력변수가 많은 경우 배깅,부스팅과 비슷하거나 좋은 예측력을 가진다.

'ADsP' 카테고리의 다른 글

Part3 ) 4장 통계분석_시계열분석 (0)	2023.05.05
Part3 - 4장 통계분석) _회귀분석 (0)	2023.05.05
Part01_비즈니스 모델과 위기요인과 통제방안 (0)	2023.05.04
Part 03] 5장 6절 연관분석 (0)	2023.05.02
Part 03 _데이터 분석] 5장 정형 데이터 마이닝(1) (0)	2023.04.30

현재글Part3) 5장 3절 앙상블 분석

이것저것 기록장

앙상블기법, underfitting, 앙상블분석, overfitting, 파생변수, ADsP, 요약변수, 데이터마이닝, 데이터마트, 오분류율, 평균대치법, KOOC, 시계열분석, 이익도표, 단순확률대치법, 배깅, 퀀트, ROC, 부스팅, 챗지피티,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

이것저것 기록장