로그인   |  회원가입  |  사이트맵  |  Contact Us
  아이디 저장하기
 
홈 > SAS Tech & Tip > SAS 자격증 준비
[SAS BA 자격증 준비] 9. 범주형 데이터 2017.11.24
김서연 67 0
http://www.mysas.co.kr/SAS_tiptech/c_base.asp?b_no=7537&gotopage=1&con=subject&keyword=&cmd=content&bd_no=42&gubun=

안녕하세요!

이번주에는 범주형 데이터에 대하여 알아보겠습니다.

 

 

 

 

 

범주형 데이터


범주형 데이터란, 말 그대로 한 값에 대한 개수를 셀 수 있으며, 여러 변수들 간의 연관성도 존재할 수 있는 데이터를 의미합니다. 이 때 연관성이란, 한 변수가 변화할 때에 다른 변수의 변화를 확인하는 것을 의미합니다. 이 범주형 데이터의 각 값에 대한 개수를 한 눈에 알아볼 수 있도록 돕기 위하여 만든 표가 Frequency Table, Frequency, Percent, Cumulative Frequency, Cumulative Percent 4가지 값들이 출력됩니다. 또한, Crosstabluation TableFrequency, Percent, Row Percent, Column Percent 4가지 값들을 출력하여 보여줍니다. 위 두 tableFREQ 프로시져를 출력하여 얻을 수 있습니다. 이에 대한 자세한 내용은 ‘[SAS BASE 자격증 준비] 8. 여러 프로시져들 알아보기 – 2’에서 공부하였으므로 생략하도록 하겠습니다.

 

 

 

 

 

 

 

연관성 검정

연관성 검정을 진행하기 위한 여러 방식들이 있습니다. 이에 앞서, 연관성 검정의 귀무가설과 대립가설에 대한 설명을 진행하겠습니다. 귀무가설(H​0)은 변수1과 변수2 사이에 연관성이 없다는 것이며, 대립가설(H​a)는 변수1과 변수2 사이에 연관관계가 존재한다는 것입니다.


1. Pearson Chi-Square Test : 실제 빈도와 기대 빈도 사이의 차를 구하는 방법입니다. 이 때 피어슨 통계량 값이 클수록 귀무가설을 기각할 근거가 되므로 두 변수 사이에 연관성이 존재한다고 말할 수 있습니다. 피어슨 통계량 값을 계산하는 수식은 다음과 같습니다.

 


이 때 Obs​ij는 실제 빈도, Exp​ij는 기대 빈도입니다.

 

Chi-Square Test에서의 p-value는 귀무가설과 대립가설에 대한 판단 여부만 알려줄 뿐, 두 변수사이의 연관성이 얼마나 큰지를 설명해주는 값은 아닙니다.

Pearson 카이제곱검정의 SAS 코드는 위에서 설명한 FREQ 프로시져의 tables statementchisq (카이제곱검정) 또는 cellchi2 (셀 마다의 카이검정량)을 추가하면 됩니다.

 

 

2.Cramer’s V : 해당 통계량 값은 Pearson Chi-Square Test에서 아이디어를 얻어 연관성이 얼마나 큰지 알려주는 값으로, 2*2의 

Table이면 -1 1사이, 더 큰 Table이면 0 1사이의 값으로 나타납니다. 1에 가까울수록, 또는 2*2Table의 경우 1이나 -1에 가까울수록 더욱 강한 연관성을 갖고 있음을 의미합니다.


 

3.Odds Ratio : 해당 통계량 값은 Odds값을 바탕으로, event의 발생에 대한 연관성을 알아보는 값입니다. 이 때, 오즈값은 다음과

같이 구할 수 있습니다.

 

 

 

오즈비(Odds Ratio)는 위의 오즈값을 바탕으로 얻어집니다. 변수1에 대한 오즈값을 변수2에 대한 오즈값으로 나누어준다고 생각하면 됩니다.

 

 

 

 

 

이 때 오즈비 값이 1이면 두 그룹간에 연관성이 없다고 말할 수 있습니다Odds Ratio SAS 코드는 FREQ프로시져의 tables 

statementrelrisk 조건을 추가하면 됩니다.

 

 

4.Mantel-Haenszel Chi-Square Test : 순서형 변수에 대한 연관성 검정을 진행할 때에는 주로 Mantel-Haenszel 카이제곱 검정값을 사용합니다.이 때의 귀무가설은 두 변수 사이에 순서가 정해져있지 않다는 것이며, 대립가설은 순서가 정해져있다는 것입니다. 이 통계량 역시 연관성의 강도를 측정해주는 값은 아니며, 순서의 연관성이 존재하는지를 결정하는 근거가 됩니다.

 

 

5.Spearman Correlation Statistic : 연관성의 정도를 -1 1사이로 표현해주는 값입니다. 1에 가까울수록 강한 긍정, -1에 가까울수

록 강한 부정을 의미합니다. Pearson 통계량 값은 연속형 데이터에 적용되는 반면, Spearman 통계량 값은 순위가 있는 데이터에 사용됩니다. SAS 코드에서는 FREQ 프로시져의 tables statement measures 조건을 추가하면 Spearman 통계량 값을 얻을 수 있습니다.

 

 

 

 

 

 

 

이것으로 '9. 범주형 데이터'에 대한 이야기를 마무리하겠습니다.

감사합니다!

 
 
    
 
 [SAS BA 자격증 준비] 10. Logistic Regression
 [SAS BA 자격증 준비] 8. 예측 모델링