로그인   |  회원가입  |  사이트맵  |  Contact Us
  아이디 저장하기
 
홈 > SAS Tech & Tip > SAS 자격증 준비
[SAS BA 자격증 준비] 8. 예측 모델링 2017.11.17
김서연 258 1
http://www.mysas.co.kr/SAS_tiptech/c_base.asp?b_no=7522&gotopage=1&con=subject&keyword=&cmd=content&bd_no=42&gubun=

안녕하세요! :)

 

이번주에는 예측 모델링에 대하여 알아보겠습니다.

 

 

 

 

 

 

 

예측 모델링 (Predictive Modeling)


예측 모델링이란, 기존의 행동들을 바탕으로 사실에 기반한 예측을 진행하여 미래에 더 나은 선택을 할 수 있도록 만드는 모델을 의미합니다. 이러한 예측 모델링은 마케팅, 개인신용평가, 금융 거래의 사기 적발 등에서 사용됩니다.

이러한 예측 모델링은 Training Data Set을 바탕으로 이루어지며, 각 Training Data Set에는 여러 개의 Input과 Target으로 이루어져있습니다. 즉 각각의 Input, Target들에 대한 정보를 바탕으로 미래에 대한 예측 모델링을 진행하는 것입니다.

 

모델을 만드는 과정에서 기존의 데이터를 충분히 설명하지 못하는 두 가지 경우가 있습니다. 첫 번째로, 만약 충분히 복잡하지 않은 모델로 생성이 되었다면, 이때에는 underfitting 되었다고 합니다.  , 편향된 추론을 할 수 있어 실제 값과 매우 상이한 결과를 가져올 수 있습니다. 반대로, 기존 정보보다 훨씬 복잡한 모델이 생성되었을 때에는 overfitting 되었다고 합니다. 이는 실제 값보다 큰 분산을 갖게 됨을 의미합니다. 이와 같이 모델의 복잡성과 적합한 모델은 편향, 분산과 큰 연관성을 갖고 있습니다.


Underfitting, Overfitting된 모델이 아닌 적합한 모델을 고르기 위하여는 Validation Data Set을 바탕으로 확인하는 작업을 거칩니다. 이 작업을 통하여 모델을 향상시켜 더욱 일반화된 모델을 만들게 되며, 이 모델을 바탕으로 Test Data Set으로 최종 확인을 합니다. , Validation Data Set으로는 점점 더 적합한 모델을 만들어가는 것이라면, Test Data Set으로는 최종 값을 출력하고, 이에 대한 정확도를 수치화시켜 다른 모델들과 비교하게 됩니다.


만약 처음부터 갖고 있는 데이터의 크기가 너무 작을 경우에는 하나의 데이터를 Training Data Set, Validation Data Set, Test Data Set 3가지로 나누는 것 보다는 Cross Validation이나 Bootstrap method와 같은 여러 방식들을 적용합니다.


이를 위한 SAS 코드는 다음과 같습니다.

 

1. Validation Data Set이 있는 경우


PROC GLMSELECT DATA = Training-data-set VALDATA = Validation-data-set;
             MODEL targets=inputs ;
RUN;



2.Validation Data Set이 없는 경우 :


PROC GLMSELECT DATA = Training-data-set ;
             MODEL targets=inputs ;
             PARTITION FRACTION( );

RUN; 

 

 

 

 

 

 

Scoring Predictive Models


새로운 모델이 만들어졌다면, 이를 미래의 일, 또는 새로운 데이터에 적용시키는 과정이 바로 Scoring입니다. 이 때, 모델을 만드는 과정에서 데이터에 변화를 주었다면 scoring을 진행할 데이터 역시 동일한 방식으로 변화를 주어야 같은 모델로 시험할 수 있습니다.

 

Scoring을 진행하는 SAS 코드는 다음과 같은 방식들이 있습니다.

1.PROC GLMSELECT에서 SCORE 문장 사용

2.PROC PLM에서도 SCORE 문장 사용

3.PROC GLMSELECT에서 SCORE 문장 사용, PROC PLM에서 CODE 문장 사용 후 해당 SAS 코드를 DATA Step에서 진행

 

 

 

 

이것으로 [8. 예측 모델링]에 대한 내용을 마무리하겠습니다.

 

감사합니다! 

 
 
    
 
 [SAS BA 자격증 준비] 9. 범주형 데이터
 [SAS BA 자격증 준비] 7. 모델 진단