로그인   |  회원가입  |  사이트맵  |  Contact Us
  아이디 저장하기
 
홈 > SAS Tech & Tip > 쉬운 SAS, SAS EG
[Excel보다 쉬운 SAS, SAS EG 따라잡기]29. 다변량 자료분석(주성분 분석) 2013.02.01
MYSAS 7277 0
http://www.mysas.co.kr/SAS_tiptech/i_eg.asp?b_no=2502&gotopage=1&con=subject&keyword=&cmd=content&bd_no=28&gubun=

 

Lesson29. 다변량 자료분석(주성분 분석)

*관련 메뉴 : 작업 – 분석 – 다변량 – 주성분 분석 

*Dataset: ex1(개인적으로 만든 Dataset입니다.)

 

  들어가는 말

 

 안녕하세요. MYSAS 입니다. 오늘은 [다변량 자료분석]의 기본적인 개념과 [주성분 분석]을 배워 보겠습니다.

 

  Lesson

 

  

 

  1. 다변량 자료분석

 

1) 정의 및 특징
 다변량 자료란 통상 둘 이상의 서로 상관되어 있는 확률적 반응변수들을 포함하고 있는 자료를 의미합니다. 이러한 다변량 자료 속에는 수많은 정보가 들어있어, 어느 한 정보만을 통해 그 자료의 전반적인 모습을 파악하기에는 한계가 있습니다. 어떤 때는 같은 것을 다르게 표현되는 경우가 있습니다. 이를 효율적으로 분석하는 방법이 다변량 자료분석입니다.

2) 분석의 목적
 통계적 처리과정에서 다변량 자료분석의 중요한 목적 중 하나는 여러 변수들의 정보를 최대한 축소하여, 복잡한 구조를 단순화시켜 이해력을 높이는데 가장 큰 목적이 있습니다.

3) 종류
 여러 종류가 있지만, 이번 EG과정에서는 주성분 분석(Principal Component Analysis), 요인 분석(Factor Analysis), 군집 분석(Cluster Analysis), 판별 분석(Discriminant Analysis)를 배워보도록 하겠습니다.



 

  2. 주성분 분석(Principal Component Analysis)

 
 서로 연관이 있는 변수들이 관측되었을 때, 이 변수들을 가지고 있는 정보들을 최대한 담아내는 적은 수의 새로운 변수들을 생성하는 통계적 방법을 말합니다.

간단한 예) X1, X2 변수

 여기서 새로운 변수를 생성하되, 주어진 데이터의 정보를 많이 담을 수 있어야 합니다. 주어진 그림에서 새로운 변수로는 Y1=X1+X2 와 Y2=X1-X2 Y1 변수가 주어진 데이터의 정보를 Y2(화살표 모양 겹치는 부분이 많음.)보다 상대적으로 많이 포함하고 있습니다. 따라서, Y1변수를 새로운 변수로 선정하게 됩니다.

추가적인 설명은 실습을 통해 알려 드리겠습니다.
Dataset: EX1의 형태(x1 - x7 변수)


1단계: 주성분 분석 선택


2단계: 데이터 선택(분석변수: x1 - x7)


3단계: 분석

여기에서 신경을 써야 할 부분은 분석과 계산되는 주성분의 갯수 입니다.
분석: Correlations, Covariance, Uncorrected correlations, Uncorrected covariance 중 
      일반적으로 Correlations가 많이 쓰입니다.
계산되는 주성분 개수: 최대 분석변수의 수만큼 만들어집니다.

4단계: 도표와 결과(필요할 경우 선택)


5단계: 결과

여기서 유심히 봐야 할 부분은
Eigenvalues of the Covariance MatrixEigenvectors입니다.
Eigenvalue & Eigenvector의 자세한 설명은 생략하겠습니다.
(참고: http://mskyt.tistory.com/78)

1) Eigenvalues of the Covariance Matrix에 대한 해석
 주성분 분석을 하여 나온 PRIN1 - PRIN7 의 설명비율을 알 수 있습니다. 다변량 분석의 주 목적은 변수의 수를 줄이는 것이 목표입니다. 하지만, PRIN1 - PRIN7를 다 쓰게 된다면, 분석의 의미가 없어집니다. 몇 개를 쓰는 것은 사람들마다 개인차는 있지만 대부분 누적으로 90%를 넘긴다면 멈추게 됩니다.

설명비율이 나오는 방법: 각각 PRIN의 Eigenvalues / Eigenvalue의 총 합
빨간색: 각 PRIN의 설명 비율
주황색: 누적 설명 비율
(PRIN1, PRIN2)만 선택해도 이 데이터를 약 95% 설명이 가능하기에 향후 분석에 이용 시 두 가지만 이용하겠습니다.

2) Eigenvectors
 여기서는 PRIN의 형태를 알 수 있습니다. 1)의 결과 PRIN1 과 PRIN2 만 사용하기로 했으므로, 각각의 형태는
PRIN1 = 0.000864*x1 + 0.008773*x2 + 0.056993*x3 
           + 0.059196*x4 + 0.465346*x5 + 0.872863*x6 + 0.121384*x7
PRIN2 = 0.007077*x1 + 0.011477*x2 + 0.165921*x3
           + 0.174243*x4 + 0.774439*x5 - 0.481781*x6 + 0.331752*x7
추가로 각각의 주성분에 대한 해석을 하겠습니다.

PRIN1의 경우 
x1 - x7 변수의 값이 양수이므로 거의 같은 쪽으로 영향을 미치지만 x6 변수의 계수 값이 가장 크므로 다른 변수보다 영향력이 있을 것으로 예측됩니다.
PRIN2의 경우
x6 변수의 부호가 다른 변수와 반대이므로, 서로 다른 쪽으로 영향을 줄 것으로 예측됩니다.

종합하면, 위 데이터는 기본의 변수를 모두 사용하는 것보다 주성분 분석으로 인해 2개의 변수를 이용해도 충분히 설명이 가능하며, 조금 더 효율적으로 분석이 가능합니다.

 

 

  차회 예고 > 다변량 자료분석(요인 분석)

 


 

 

  QUIZ

 


 

 Lesson27. 정답

 

Q. 
A후보 지지에 대하여 유의수준(0.05) 기준으로 성별에 따라 연관이 있는 지 없는 지 보는 예제 입니다.




어떤 검정(5단계 그림 확인)을 해야 하는지 이유와 함께 P-value를 제시하여 귀무가설의 기각여부를 판단해주세요. 추가로 연관성이 있다면 그 영향력이 얼마나 되는지 수치와 함께 간단한 의견을 적어주세요.


2 x 3 이기 때문에 r x c 테이블에 대한 Fisher의 정확검정을 사용하겠습니다.
P-value: 0.0011 < 유의수준(0.05)
기각역에 포함되므로, 귀무가설(H0 = 변수간의 연관성이 없다.)을 기각합니다.
즉, 변수간의 연관성이 존재한다는 것을 알 수 있습니다.
크래머의 V값은 0.2346으로 낮은 연관성이 존재한다는 것을 알 수 있습니다.
 

 

 이번 회 QUIZ

 
Q. SASHELP.CLASS를 이용하여
분석변수: Age, Height, Weight
PRIN1의 설명비율 및 형태를 적어주세요.

예시답변) Age, Height 변수의 경우
PRIN1의 설명비율: 0.8856 (약 88%)
PRIN1 = 0.5487*Age + 0.5457*Height


쪽지 보내주세요~~소정의 상품이 있습니다!!
정답을 맞추신 분들중 추첨을 통해 10명에게
스타벅스 카페라떼 1잔씩 보내 드립니다. 많은 참여 부탁드립니다.
참고로 회원정보 수정에 가셔서 본인의 핸드폰이 맞는지 확인 한번 해주세요.
정답 발표 날 : 2013.02.06(수요일)


감사합니다.

  

MYSAS 올림.

 
 

 
  ex1[2].sas7bdat
다운로드 수 | 45
    
MYSAS   [2013/02/03 9:27]
^^ 다음에 조금 더 좋은 강의로 찾아뵙겠습니다.
 
 [Excel보다 쉬운 SAS, SAS EG 따라잡기]30. 다변량 자료분석(요인 분석)
 [Excel보다 쉬운 SAS, SAS EG 따라잡기]28. 범주형 자료분석(로지스틱 회귀분석)