로그인   |  회원가입  |  사이트맵  |  Contact Us
  아이디 저장하기
 
홈 > SAS Tech & Tip > SAS 자격증 준비
[SAS BA 자격증 준비] 10. Logistic Regression 2017.12.01
김서연 71 1
http://www.mysas.co.kr/SAS_tiptech/c_base.asp?b_no=7552&gotopage=1&con=subject&keyword=&cmd=content&bd_no=42&gubun=

안녕하세요!


오늘은 마지막으로 로지스틱 회귀분석에 대하여 공부하겠습니다.

 

 

 

 

 

 

Logistic Regression – 종속변수가 범주형 변수인 경우

앞서 배웠던 회귀분석은 종속변수가 연속형 변수인 반면, 로지스틱 회귀분석은 범주형 변수를 종속변수로 다루는 분석입니다. 범주형 변수의 경우, 주로 (범주가 2개로 이루어진 경우) 1 0으로 표현하게 됩니다. 이러한 범주형 변수를 바탕으로 회귀분석을 진행하고 싶다면, 일반 회귀분석으로는 올바른 회귀식을 얻을 수 없을 것입니다. 이를 고치기 위하여 Y값인 범주형 변수를 1 0이 아닌 확률로 바꾸어 생각을 해보면 종속변수가 연속형 변수로 바뀌게 됩니다. 이렇게 확률로 바꾸기 위하여 사용하는 새로운 값은 다음과 같습니다.

 

  • 오즈: 지난 시간에 배웠던 오즈값은 실패확률 대비 성공확률로, 0과 무한대 사이의 값을 갖게 됩니다.
  • 로짓: 오즈에 로그를 씌운 값으로, -무한대와 +무한대 사이의 값을 갖게 됩니다.

로지스틱 회귀분석은 각 확률에 로짓 변환을 시켜 분석을 진행합니다. 이러한 값들을 바탕으로 로지스틱 회귀분석이 갖는 가정은 로짓과 독립변수는 선형관계에 놓여있다는 것입니다. 로지스틱 회귀분석의 수식은 다음과 같습니다.


 

로지스틱 회귀분석의 SAS코드는 다음과 같습니다.

 

PROC LOGISTIC DATA=SAS-data-set ;

CLASS variables ;
MODEL response=predictors ;
UNITS independent1=list ... ;
ODDSRATIO
<‘label’> variable ;
OUTPUT OUT=SAS-data-set keyword=name ;

RUN;

  • CLASS : 로지스틱 회귀분석에 사용될 변수들을 선택하는 문장입니다. 뒤에서 배울 예정이지만, 범주가 여러 개 존재하는 범주형 변수를 위한 더미 변수도 생성합니다
  • MODEL : 변수들 중에서 독립변수와 종속변수를 구분합니다.
  • UNITS : 특정 값을 바탕으로 지난 시간에 배운 오즈비값을 얻도록 설정하는 문장입니다.
  • ODDSRATIO : 각 변수들을 위한 오즈비값을 출력합니다.
  • OUTPUT : 결과물 데이터셋을 만들어냅니다.

 

 

 

 

독립변수도 범주형 변수인 경우

 

분석을 진행하기 위하여 여러 데이터를 만나다보면, 종속변수 뿐만 아니라 독립변수 역시 범주형 변수인 경우를 만나게 됩니다. 이를 

위하여 필요한 것은 더미변수입니다. 위에서 설명한 로지스틱 회귀분석의 SAS코드를 다시 살펴보겠습니다. 이 때, 첫번째 줄의 CLASS 문장은 더미변수를 생성하는 역할을 합니다. 더미변수란, 실제 범주형 변수는 아니지만, 종속변수를 계산하는데 편리함을 더하기 위하여 분석가가 임의로 추가하는 변수입니다. 추가되는 더미 변수의 개수는 새로운 범주형 변수가 들어왔을 경우, 범주의 개수 – 1 입니다.

 

 

Effect(Default) Coding

 


 

이를 바탕으로 얻게 되는 로지스틱 회귀분석의 식은 다음과 같습니다.

 

  • ​β​0 : 로짓값의 평균
  • β​1 : 로짓의 평균과 Low Income의 로짓값의 차이
  • β​2 : 로짓의 평균과 Medium Income의 로짓값의 차이

 

 

 

Reference Cell Coding 

 


 

이러한 더미 변수의 설정을 바탕으로 얻게 되는 식은 위 수식과 같으나, 그 의미에 차이가 있습니다.


 

  • β​0 : High Income일 때의 값
  • β​1 : Low IncomeHigh Income일 때의 로짓값의 차이
  • β​2 : Medium Income High Income일 때의 로짓값의 차이

 

 

 

 

 

 

이것으로 [SAS Statistical Business Analysis 자격증준비]의 마지막 내용을 마무리하겠습니다.

 

감사합니다!! :)

 
 
    
 

 더 이상 글이 존재하지 않습니다.

 [SAS BA 자격증 준비] 9. 범주형 데이터