사이트맵  |  Contact Us
 
홈 > SAS Tech & Tip > SAS Enterprise Miner
Enterprise Miner를 이용한 Cluster Analysis (3) 2019.01.14
전보배 422 0
http://www.mysas.co.kr/SAS_tiptech/j_eminer.asp?B_NO=11015&gotopage=1&cmd=content

안녕하십니까, 전보배 입니다.

, 지난 작업을 열어놓고 시작해 보도록 하겠습니다.

 

데이터 소스 결과 확인

 

[그림 3-1]


 

만약 [그림 3-1]에서와 같이 데이터 소스 노드 우측 하단에 초록색 동그라미의 체크 표시가 없다면, 아직 실행을 하지 않은 상태 입니다. 노드를 선택 하시고 실행을 해주셔야 합니다.

그러면, 가져온 데이터가 잘 들어왔는지, 확인해 보도록 하겠습니다.

 

[그림 3-2]


 

노드를 우클릭 하여 [결과]를 선택합니다.

 

[그림 3-3]


 

출력 창과 변수 창을 확인하실 수 있습니다. 이제부터 모든 노드들의 결과는 같은 방식으로 확인하실 수 있습니다.

이 데이터의 기초 통계량을 확인하실 수 있는 방법도 있습니다.

 

[그림 3-4]


 

기본 화면에서 데이터 소스 노드를 클릭하시면, 좌측 패널에서 [내보낸 데이터]라는 속성을 보실 수 있습니다. 우측의 […]버튼을 누릅니다.

 

[그림 3-5]


 

테이블 EMWS1.Ids_DATA 를 선택하시고, [탐색] 버튼을 누릅니다. 여기에서 “EMWS1.Ids_DATA” 테이블이 바로 우리가 가져온 데이터 소스 “DMR.dmr_customer_base_kr”Enterprise Miner(이하 “EM”으로 표기)에서 분석하기 위해 저장한 것입니다.

 

[그림 3-6]


 

데이터의 속성과 표본 통계량, 실제 데이터를 확인하실 수 있습니다.

이번에는 각각 변수들의 분포를 확인하는 방법을 알아보겠습니다.

 

[그림 3-7]


 

데이터 소스 노드에서 우클릭하여 [변수 편집…]을 선택합니다.

 

[그림 3-8]


 

변수 “AGE”를 선택한 후 우측 하단의 [탐색] 버튼을 누릅니다.

탐색창에서 우측 하단의 그래프를 보겠습니다.

 

[그림 3-9]


 

클러스터링을 하기 위해서 변수가 정규분포를 나타내는 종모양의 곡선을 그려야 합니다. 하지만 “AGE”는 좌측으로 치우쳐 있기 때문에 로그 변환이 필요하다는 것을 알 수 있습니다. , 다른 변수들도 각각 확인하여 변환 필요 여부를 결정해야 겠지요??

 

[그림 3-10]


 

[그림 3-11]


 

애석하게도(?) “나이”, “소득”, “고객연수모두 변수 변환이 필요합니다.

 

 

 

변수 변환

다이어그램 상단의 툴바에서 [수정]탭을 선택하시면, 가장 우측에 [변수 변환] 아이콘을 선택할 수 있습니다.

 

[그림 3-12]


 

아이콘을 쭉 끌어다가 [데이터 소스] 노드 옆에 놓습니다.

 

[그림 3-13]


 

그리고 [데이터 소스] 노드 우측 변에 마우스 포인터를 놓으면 포인터가 펜 모양으로 바뀝니다. 그 상태에서 [변수 변환] 노드까지 쭉~ 이어 줍니다.

그려면, EM에서 “DMR.dmr_customer_base_kr”데이터를 이용하여 이어서 작업할 수 있습니다.

 

[그림 3-14]


 

[변수 변환] 노드를 선택하신 후 왼쪽 [속성] 패널을 보시면, [변수 변환] 노드에서 할 수 있는 여러 작업들을 확인하실 수 있습니다. 이중에서 우리는 [수식(Formulas)]를 통해 변수 변환을 하겠습니다. [수식(Formulas)]의 우측 […]버튼을 클릭합니다.

 

[그림 3-15]


 

세가지 변수를 변환해야 하는데, 그 중 “AGE(나이)”를 선택 하신 후 상단에서 가장 좌측에 위치한 [생성] 아이콘을 클릭합니다.

 

[그림 3-16]


 

상단의 [이름] 부분을 “LOG_AGE”로 바꾼 후, [수식] 부분에 “log(AGE+1)”라고 입력 후 [확인] 버튼을 클릭합니다.

 

[그림 3-17]


 

그리고, 좌측 하단의 [미리 보기] 버튼을 클릭하시면, 변환된 변수의 분포를 확인 할 수 있습니다. 정규분포에 가까워 진 것이 보이시지요??

같은 방법으로 나머지 두 개의 변수를 변환하겠습니다.

한 번만 더 해볼까요?

 

[그림 3-18]


 

[수식]창 상단의 [생성] 버튼을 클릭 후 상단의 [이름] 부분을 “LOG_H_INCOME”로 바꾼 후, [수식] 부분에 “log(HOUSEHOLD_INCOME+120000)”라고 입력 후 [확인] 버튼을 클릭합니다.

 

[그림 3-19]


 

같은 방식으로 “LOG_YEARS”도 생성 합니다.

 

[그림 3-20]


 

모두 생성한 후 [확인] 버튼을 클릭합니다.

 

[그림 3-21]


 

그리고, [변수 변환] 노드 선택 후 실행을 하시면 됩니다.

 

[그림 3-22]


 

[그림 3-23]


 

[결과] 키를 눌러 볼까요?

 

[그림 3-24]


 

변수가 생성된 것을 볼 수 있습니다.

 

오늘은 변수 변환을 했습니다. EM은 따로 저장할 필요 없이 그냥 끄셔도 다음에 다시 불러 올 수 있습니다.

다음 시간에는 필터링에 대해 알아보겠습니다.

 

감사합니다.


 

오늘까지 작업한 emp를 다운로드 하실 수 있습니다.
저는 SAS Enterprise Miner 14.1, Local 환경에서 작업했습니다.
하위 버전이거나서버환경 일 경우 실행이 되지 않으실 수 있으니 참고 바랍니다.
물론 같은 버전같은 환경이어도라이브러리 디렉토리(D:\TEMP\DMR_전략팀)가 다르면 실행되지 않습니다.

 

참조 : [Business Analytics Using SAS Enterprise Guide and SAS Enterprise Miner: A Beginner's Guide]  

 
  dmr_customer_base_kr[8].sas7bdat
project[3].emp
다운로드 수 | 8
휴대폰 번호
휴대폰 인증번호
 
 Enterprise Miner를 이용한 Cluster Analysis (4)
 Enterprise Miner를 이용한 Cluster Analysis (2)