로그인   |  회원가입  |  사이트맵  |  Contact Us
  아이디 저장하기
 
홈 > SAS Tech & Tip > 쉬운 SAS, SAS EG
[Excel보다 쉬운 SAS, SAS EG 따라잡기]27. 범주형 자료분석(교차분석) 2013.01.28
MYSAS 8562 0
http://www.mysas.co.kr/SAS_tiptech/i_eg.asp?b_no=2484&gotopage=1&con=subject&keyword=&cmd=content&bd_no=28&gubun=

 

Lesson27. 범주형 자료분석(교차분석)

*관련 메뉴 : 작업 – 분석 – 기술 – 테이블분석

*Dataset: EX(개인적으로 만든 Dataset)

 

  들어가는 말

 

 안녕하세요. MYSAS 입니다. 오늘은 [범주형 자료분석]의 기본적인 개념과 함께 [교차분석]을 배워 보겠습니다.(Lesson17. 테이블 분석 강의 한번 읽어보세요.)

 

  Lesson

 

  

 

  1. 범주형 자료분석

 

범주형 자료란?
 관측된 값의 크기가 아니라 내용이 주 관심이므로 질적자료라고도 하며, 각 범주에 속한 관측값의 빈도가 관심의 대상이 됩니다. 또한 범주형 자료는 크게 두 가지로 순서의 의미가 있는 경우 순위형자료(Ordinal), 그렇지 않은 경우 명목형자료(Nominal)로 구분됩니다.

분석방법
 종속변수의 유형설명변수의 유형에 따라 교차분석, 로지스틱 회귀분석을 사용하게 됩니다.
 1) 교차분석: 범주형 vs 범주형
 2) 로지스틱 회귀분석: 범주형 vs 범주형 or 연속형 or 범주형 & 연속형

 

  2. 교차분석

 
 두 개 이상의 범주를 가지는 변수에 대한 독립성 및 동질성 여부를 분석하는데 이용되는 분석기법을 의미합니다.

검정방법
 일반적으로 Pearson Chi-squared Test(피어슨 카이제곱 검정)사용합니다. 하지만 카이제곱 통계량은 귀무가설(H0 = 변수들간의 연관성이 없다.)을 기각여부만 판단이 가능합니다. 연관성 정도에 대한 정보를 주지 않는 것을 명심해야 합니다. 이 부분을 측정할 수 있는 통계량은 Cramer's V값을 확인해야 합니다. 기본적으로 0에서 멀어지는 값일수록 연관성이 강하게 나타납니다.

Dataset: EX의 형태

성별과 결혼여부가 연관성이 있는지 분석하도록 하겠습니다.
총 Data: 194개

1단계: 테이블 분석 선택


2단계: 데이터 선택(테이블 변수: 성별, 결혼여부)


3단계: 테이블(가로: 결혼여부, 세로: 성별)


4단계: 셀 통계량(확인하고 싶은 통계량 선택)


5단계: 테이블 통계량 -> 연관성(연관성 검정: 카이제곱 검정)

정확 p-값 선택 시 정확 유의확률을 계산하게 됩니다. 이 옵션은 카이제곱 검정을 선택하는 경우에 활성화 됩니다. r x c 테이블에 대한 Fisher의 정확 검정은 2 x 2 를 초과하는 r x c 테이블에 대한 검정을 수행할 때 사용됩니다. 만약 각 셀의 빈도가 적을 경우, 꼭 정확 p-값 선택 또는 초과하는 r x c 테이블에 대한 검정을 선택해야 합니다.

6단계: 테이블 통계량(일치성, 순서화차이, 추세 검정: 필요경우 선택/계산옵션: 유의수준0.05)


7단계: 결과

P-value: 0.0031 < 유의수준(0.05)
기각역에 포함되므로 귀무가설(H0 = 변수들간의 연관성이 없다.)을 기각합니다.
즉, 변수들간의 연관성이 존재합니다.
추가로 연관성 정도에 대해 알아보면 크래머의 V 값이 0.2125로 0에 크게 벗어나지 않으므로,
성별과 결혼여부는 연관성은 존재하지만 크지 않다는 것을 알 수 있습니다.

 

  차회 예고 > 범주형자료분석(로지스틱 회귀분석)

 


 

 

  QUIZ

 


 

 Lesson25. 정답

 

Q. 
group 간의 size가 차이가 있는지 없는지 분석하는 실습예제(첨부파일: one_way_anova) 입니다. 유의수준(0.05)기준으로 분석해주세요.

Levene 검정결과
P-value: 0.4401 > 유의수준(0.05)
기각역에 포함되지 않으므로 귀무가설(H0 = 등분산성 만족)을 기각하지 못합니다.
즉, 등분산성을 만족합니다.
Welch 검정으로 다시 분석할 필요가 없습니다.

ANOVA Table 결과
P-value: 0.3314 > 유의수준(0.05)
기각역에 포함되지 않으므로 귀무가설(H0 = 그룹간의 차이가 없다.)을 기각하지 못합니다.
즉, 그룹간의 차이가 없습니다.
 

 

 이번 회 QUIZ

 
Q. A후보지지에 대하여 유의수준(0.05) 기준으로 성별에 따라 연관이 있는 지 없는 지 보는 예제입니다.

Dataset: ex1의 형태


어떤 검정(5단계 그림 확인)을 해야 하는지 이유 함께 P-value 제시하여 귀무가설의 기각여부를 판단해주세요. 추가로 연관성이 있다면 그 영향력이 얼마나 되는지 수치와 함께 간단한 의견을 적어주세요.

답변예시)
2 X 2 이고 각 셀마다 빈도 수가 충분하기 때문에 카이제곱을 사용하겠습니다.
P-value: 0.4564 > 유의수준(0.05)
기각역에 포함되지 않으므로, 귀무가설(H0 = 변수간의 연관성이 없다.)을 기각하지 못합니다.
즉, 변수간의 연관성이 존재하지 않다는 것을 알 수 있습니다.
연관성이 없기 때문에 크래머의 V값은 고려하지 않겠습니다.


쪽지 보내주세요~~소정의 상품이 있습니다!!
정답을 맞추신 분들중 추첨을 통해 10명에게
스타벅스 카페라떼 1잔씩 보내 드립니다. 많은 참여 부탁드립니다.
참고로 회원정보 수정에 가셔서 본인의 핸드폰이 맞는지 확인 한번 해주세요.
정답 발표 날 : 2013.02.01(금요일)


감사합니다.

  

MYSAS 올림.

 
 

 
  ex[2].sas7bdat
ex1.sas7bdat
다운로드 수 | 46
    
 
 [Excel보다 쉬운 SAS, SAS EG 따라잡기]28. 범주형 자료분석(로지스틱 회귀분석)
 [Excel보다 쉬운 SAS, SAS EG 따라잡기]26. 분산분석(이원분산분석)