로그인   |  회원가입  |  사이트맵  |  Contact Us
  아이디 저장하기
 
홈 > SAS Tech & Tip > 쉬운 SAS, SAS EG
[Excel보다 쉬운 SAS, SAS EG 따라잡기]31. 다변량 자료분석(군집분석) 2013.02.07
MYSAS 8592 0
http://www.mysas.co.kr/SAS_tiptech/i_eg.asp?b_no=2532&gotopage=1&con=subject&keyword=&cmd=content&bd_no=28&gubun=

 

Lesson31. 다변량 자료분석(군집분석)

*관련 메뉴 : 작업 – 분석 – 다변량 – 군집분석 

*Dataset: EX, k_means(개인적으로 만든 Dataset입니다.)

 

  들어가는 말

 

 안녕하세요.
MYSAS 입니다.
오늘은 [다변량 자료분석]의 [군집분석]을 배워 보겠습니다.

 

  Lesson

 

  

 

  군집분석(Cluster Analysis)

 

 유사한 속성들을 갖는 관측치들을 묶어 전체의 관측치들을 몇 개의 그룹 또는 군집(cluster)으로 나누는 것을 말합니다.

군집분석의 종류
 크게 두가지로 계층적 군집분석비계층적 군집분석으로 구분됩니다.

1) 계층적 군집분석: 군집간의 거리, 유사성을 정하는 방법을 말합니다.
 (1) 평균연결법: 두 군집의 관측치 간 모든 거리의 평균을 군집 간 거리로 측정하여
  연결하는 방법입니다.
 (2) 중심법: 각 군집 내 거리를 군집의 중심점을 기준으로 연결하는 방법입니다.
 (3) Ward의 최소분산법: 군집의 평균과 관측치들 사이의 편차들의 제곱합을 고려하여,
  각 단계에서 두 군집의 병합으로 인한 편차들의 제곱합이 최소가 되는 군집끼리
  연결시키는 방법입니다.

2) 비계층적 군집분석: 관측치의 수가 많은 경우에는 관측치들 사이의 유사성 거리를
 구하는 것이 매우 번거롭고 양이 많기 때문에 이러한 경우 비계층적 군집분석 방법 중
 K-평균 군집분석을 사용하게 됩니다. 여기서 K란 군집 수를 의미하는데 분석가가 직접
 정해야 합니다. 명확한 답은 존재하지 않고, 가장 좋은 결과를 보이는 군집수로 결정해야
 합니다.

1. 계층적 군집분석
 
계층적 군집분석 방법 중 Ward의 최소분산법을 이용하겠습니다.

Dataset: EX의 형태


1단계: 군집분석 선택


2단계: 데이터 선택(분석변수: x1, x2)

레이블 식별은 지정된 변수의 값을 군집 히스토리 및 출력 트리 테이블의 행을 표시하기 위해 사용됩니다. 만약, 설정하지 않은 경우 각 행은 OBSn으로 표시됩니다.
(n은 행 번호입니다.)

3단계: 군집(Ward의 최소분산법)



4단계: 도표(K-평균 알고리즘을 제외한 나머지만 활성화 됩니다.)


5단계: 결과



평균연결법의 결과(다른 조건은 동일)


중심법의 결과(다른 조건은 동일)


3개의 방법에 의하여 만들어진 군집을 동일하게 나오는 것을 알 수 있습니다.


2. 비계층적 군집분석(K-평균 군집분석)
 
비계층적 군집분석의 대표적인 방법인 K-평균 군집분석을 보여드리겠습니다. 앞서 설명을
드렸던 것처럼 대용량 데이터의 경우 계층적 군집분석을 실시하기에는 비용과 시간이 많이 들기 때문에 비계층적 군집분석을 실행하게 됩니다. 여기서 중요한 점은 바로 군집의 수를 최대 몇 개로 설정할 것인지 문제입니다.

K의 초기값에 대한 TIP!
 계층적 군집분석을 먼저 수행하여 적당하게 분류되는 군집의 수를 K로 설정합니다. 만약, 대용량의 표본일 경우 일부 표본을 랜덤으로 추출 후, 계층적 군집분석 후 K의 값을 정할 수 있습니다.

Dataset: k_means의 형태

총 Data의 수: 345개
Data의 수가 많으므로 계층적 군집분석을 사용하기에는 어려움이 있습니다. 따라서 비계층적 군집분석 방법의 K-평균 군집분석을 이용하겠습니다. K의 초기값은 345개에서 30개의 표본을 추출 후 계층적 분석방법을 통해 적당한 후(K)의 군집으로 나누겠습니다.

랜덤 수 추출하는 프로시져


계층적 군집분석의 결과

총 4개의 군집으로 정하겠습니다.

1단계: 군집분석 선택


2단계: 데이터 선택(분석변수: x1 - x6)


3단계: 군집(K-평균 알고리즘)

최대 군집 개수: 계층적 군집분석 방법을 통해 4개로 설정하겠습니다.
난수 초기값 대체: full, partial, none, random 의 경우 일반적으로 random이 많이 사용됩니다. 만약 random으로 설정한 경우, 난수초기값은 1로 설정합니다. 여기에서는 full로 분석하겠습니다.

4단계: 결과 -> 출력 데이터 저장

K-평균 군집 클릭 시 새로운 Dataset이 생성됩니다. 기존의 Dataset에 추가적으로 관측치가 4개의 군집 중 어디에 속하는 지 알 수 있는 새로운 변수(CLUSTER)가 만들어집니다.

5단계: 군집분석 결과

여기서 유심히 봐야 할 것은
Cluster Means와 Cluster Standard Deviations 입니다.

1) Cluster Means 에 대한 해석
 각각의 Cluster의 특징을 알 수 있습니다.
 Cluster1의 경우를 예를 들겠습니다.
  x1의 평균값은 약 90으로 가장 높고 다음으로 x2입니다. x3, x4, x5의 경우는 비슷한 값을
 가지고 x6의 경우는 가장 작은 값을 가지게 됩니다.

2) Cluster Standard Deviations 에 대한 해석
 각각의 값이 작을수록 각 집단을 구성하는 관측치들의 집단 내 변동 수준이 작은 것으로 예측됩니다.

출력 Dataset

출력 Dataset을 보면 CLUSTER의 변수가 생성된 동시에 각 관측치가 어디 군집에 
속하는 지 알 수 있습니다. 조금 세분화하고 싶거나 줄이고 싶으면 군집의 수를 조정하여 다시 분석 할 수 있습니다.
 

 

  마지막회 예고 > 다변량 자료분석(판별분석)

 


 

 

  QUIZ

 


 

 Lesson29. 정답

 

Q. 
SASHELP.CLASS 를 이용하여
분석변수: Age, Height, Weight
PRIN1의 설명비율 및 형태를 적어주세요.


PRIN1의 설명 비율: 0.8738(약 83%)
PRIN1 = 0.560811*Age + 0.593307*Height + 0.577476*Weight
 

 

 이번 회 QUIZ

 
Q. SASHELP.CLASS를 이용하여
계층적 군집분석(Ward의 최소분산법)을 통해 메리와 처음으로 연결되는 이름을 적어주세요.

분석변수: Age, Height, Weight
레이블 식별: Name


예시답변)
존 / 알프레드 ...


쪽지 보내주세요~~소정의 상품이 있습니다!!
정답을 맞추신 분들중 추첨을 통해 10명에게
스타벅스 카페라떼 1잔씩 보내 드립니다. 많은 참여 부탁드립니다.
참고로 회원정보 수정에 가셔서 본인의 핸드폰이 맞는지 확인 한번 해주세요.
정답 발표 날 : 2013.02.13(수요일)


감사합니다.

  

MYSAS 올림.

 
 

 
  ex[4].sas7bdat
k_means.sas7bdat
다운로드 수 | 35
    
김현우   [2013/02/07 2:56]
항상 수고 많으십니다^^
박희웅   [2013/02/07 5:48]
좋은 팁 간단하게 설명이 되어있어서 잘보고 있습니다. 수고하세요~
 
 [Excel보다 쉬운 SAS, SAS EG 따라잡기]Final. 다변량 자료분석(판별분석)
 [Excel보다 쉬운 SAS, SAS EG 따라잡기]30. 다변량 자료분석(요인 분석)