사이트맵  |  Contact Us
 
홈 > SAS Tech & Tip > SAS 자격증 준비
[SAS BA 자격증 준비] 6. 모델 선택 2017.11.03
김서연 472 1
http://www.mysas.co.kr/SAS_tiptech/c_base.asp?b_no=7511&gotopage=1&con=subject&keyword=&cmd=content&bd_no=42&gubun=

안녕하세요!

오늘은 앞에서 배운 모델 생성 방식들을 바탕으로, 여러 모델 가운데에서 적합한 모델을 선택하는 과정에 대하여 알아보겠습니다.

 

 

 

 

 

 

 

모델 선택

적은 데이터 수를 가진 표본에서는 한 변수씩 삭제해가며 최상의 모델을 찾는 방법이 가능합니다. 하지만, 데이터의 수가 많아질수록 변수를 하나씩 제거한다는 것은 많은 시간이 필요합니다. 이를 위하여 여러 방법들을 사용하게 됩니다. 그 방법들은 다음과 같습니다.


 

  • FORWARD SELECTION : 비어있는 모델로 시작하는 방식입니다. 변수들을 바탕으로 F통계량을 계산하여, 가장 크고 유의한 하나의 변수를 선택하여 비어있는 모델에 넣어줍니다. 한번 들어간 변수는 다시 취소하지 않으며, 남은 변수들을 바탕으로 동일한 방식을 진행해줍니다. SAS코드에서는 SLENTRY= 옵션을 통하여 모델에 선택될 유의수준을 정할 수 있습니다
  • ​​BACKWARD ELIMINATION : 모든 변수들을 모델에 집어넣은 상태로, F통계량을 계산하여 가장 적고 유의하지 않은 변수를 삭제하는 방식으로 진행합니다. 위의 Forward Selection과 반대라고 이해할 수 있습니다. SAS 코드에서는 SLSTAY= 옵션을 통하여 모델에서 제거되지 않을 유의수준을 정할 수 있습니다.

 

  • STEPWISE SELECTION : 비어있는 모델로 시작하며 한 변수씩 추가한다는 점에서 Forward Selection과 유사합니다. 하지만, 이미 존재하고 있는 변수들이 다시 취소될 수 없지는 않다는 점에서 다릅니다. 다시 계산한 결과 모델 내에 들어있는 변수가 적합하지 않다고 판단이 될 때 다시 그 변수를 삭제하기도 합니다. 마지막으로 삭제한 변수가 다시 추가될 때 모델 선택 과정이 끝나게 됩니다.

 

세 가지 방법에 대한 SAS코드는 다음과 같습니다.

 

PROC GLMSELECT DATA=SAS-data-set<options>;

             CLASS variables;
             MODEL dependent(s) = regressor(s) </ options>;
RUN;


MODEL문에서 사용할 수 있는 옵션들은 다음과 같습니다.

 

  • S​ELECTION : 앞서 배운 모델 선택의 방식을 적어주는 옵션입니다. Default값은 STEPWISE 방식입니다.
  • CHOOSE : 모델 선택의 기준을 결정합니다. 이 옵션을 적지 않으면, 가장 마지막 스텝에서의 모델이 선택됩니다.
  • SELECT : 어느 순서로 각각 영향을 미칠지 정해주는 옵션입니다. Default값은 SELECT = SBC입니다.
  • STOP : 언제 모델 선택 과정을 멈출지 정하는 옵션입니다.

 

 

 

 

 

 

 

변수선택 / 모형평가 기준

해당 모델 선택의 기준을 계산하는 값들입니다. Information Criterianlog(SSE/n) 의 계산값으로 시작하여, 해당 모델의 정확도에 해당하는 Penalty Component가 있습니다. 이 모든 것을 계산하여 가장 값이 작은 Information Criteria가 더 나은 것으로 결정됩니다.


 

이 때, n은 데이터의 개수이며, p는 변수의 개수입니다.

 

또 다른 모델 선택의 기준으로는 Adjusted R-Square값이 있습니다.

 

지난주에 설명한 것과 같이, 변수의 개수가 많아지면 R-Square의 값이 커지지만, 그렇다고 항상 최상의 모델은 아니기 때문에 Adjusted R-Square값이 필요합니다.

 

변수 선택의 기준으로는 Mallows’ C​p값을 사용할 수 있습니다.

 

주로 C​p값이 p(변수의 개수)보다 같거나 작은 모델을 선택하는 것이 좋다고 합니다. , p값과 가장 유사하며 가장 적은 수의 변수들을 포함하는 모델을 선택하는 것입니다. 하지만 HockingC​p값이 2p p​full + 1 보다 같거나 작은 모델을 선택해야한다고 주장하는 것과 같이 Cp값을 바탕으로 최선의 모델을 선택하는 것은 분석하는 사람의 판단에 맡겨지게 됩니다.







이것으로 모델 선택 과정에 대한 내용을 마무리하겠습니다.


감사합니다!

 
 
 
휴대폰 번호
휴대폰 인증번호
 
 [SAS BA 자격증 준비] 7. 모델 진단
 [SAS BA 자격증 준비] 5. Regression