사이트맵  |  Contact Us
 
홈 > SAS Tech & Tip > SAS Enterprise Guide
Enterprise Guide를 이용한 Business Analytics (6) -완 2018.11.20
전보배 75 0
http://www.mysas.co.kr/sas_tiptech/i_eg.asp?b_no=11001&cmd=content&bd_no=28

오늘도 신나게 달려보겠습니다!

 

저장해 두었던 DMR.egp 파일을 열고, 라이브러리 할당 부분과, 질의빌더 부분을 우선 실행해 주시기 바랍니다.

(저처럼 만사 귀찮으신 분은 그냥 전체 실행 후 잠깐 물 한잔을 마십니다 ^^)

, 그러면 저번 시간에 이어 작업 할 준비가 다 되었습니다.


잠깐 기억을 더듬어 볼까요?


저는 가상의 DMR 출판사, 전략팀에 신입사원이었습니다.

우리나라 출판시장 데이터를 분석하여 우리 DMR 출판사가 어떤 고객층에 전략적 마케팅을 해야 할 지 분석하여 신입사원으로써의 존재함을 과시하고 싶었습니다.


그래서 지난 시간까지 엑셀 파일을 sas data set으로 가져와 상위 25%의 고객이 유의미 한 것으로 판단하여, 상위 25% 인지 아닌지를 구분하는 칼럼을 생성하는 작업까지 했습니다.


실제로, 여기까지 오면서 여러분은 EG에서 라이브러리 할당, 데이터 가져오기, 데이터 특성화, 분포분석, 새로운 칼럼 생성 등의 스킬을 익히셨습니다.


오늘은 [Enterprise Guide를 이용한 Business Analytics]의 마지막 시간으로 새로운 칼럼을 생성했던 data set을 가지고 요약통계량, 테이블분석을 통해 데이터를 해석해 보는 시간을 갖기로 하겠습니다.



1. 요약통계량


정말 상위 25%를 기준으로 통계량들이 달라지는 지 궁금하시죠? (궁금하다고 해주세요…)

질의빌더를 이용하여 [그림 6-1]와 같이 P_25 칼럼을 생성했던 data set을 이용하여 작업하도록 하겠습니다.

 

[그림 6-1]


 

[메뉴바 > 설명 > 요약통계량]으로 들어가겠습니다.

 

[그림 6-2]


 

[그림 6-2]와 같이 분석변수에는 나이”, “소득”, “수익성을 할당하고, 분류변수에는 “TOP_25”를 할당하겠습니다.

 

분석변수, 분류변수, 빈도변수 등언젠가 시간에 배웠던 단어들이 나오니 겁이 나시죠? 하지만 전~혀 걱정 없습니다. 각각의 변수를 클릭하면 그것에 대한 설명을 아래 패널에 띄워준답니다. ([그림 6-3]참조)

 

[그림 6-3]


모두 할당하셨다면 왼쪽 패널의 [통계량 > 기본]을 클릭하겠습니다.

 

[그림 6-4]


 

[그림 6-4]과 같이 기본 통계량을 선택하겠습니다. 역시 이 통계량들도 각각의 이름을 클릭하면 아래 패널에서 그 정의를 확인하실 수 있습니다.

이번에는 [통계량 > 백분위수]를 클릭하셔서 중위수도 선택하겠습니다.

 

[그림 6-5]


 

그리고 바로 [실행] 버튼을 클릭합니다.

 

[그림 6-6]


 

[그림 6-6] 과 같은 결과를 얻으셨나요? 그렇다면 아주 잘 따라오고 계십니다!

 

결과를 함께 살펴보도록 하겠습니다.

 

·   나이 (AGE) : 수익성이 상위 25%의 나이의 평균은 34, 하위 75%의 평균은 37세 입니다. 최빈값도 상위 25%21, 아닌 쪽은 27세 입니다. 중위수도 상위 25%32, 아닌 쪽이 34세 인 것으로 나타나고 있습니다.

 

·​   소득 (HOUSEHOLD_INCOME) : 수익성이 상위 25%인 쪽의 소득 평균이 약 9,300만원이고, 하위 75%5,800만원으로 나타나고 있습니다. 소득의 최빈값 중위수를 보더라도 두 그룹에 현저한 차이가 나타남을 보실 수 있습니다.

 

·​   수익성 (CUSTOMER_REVENUE) : 당연히 수익성을 기준으로 TOP_25를 생성했기 때문에 차이가 나타남을 쉽게 예상하실 수 있습니다. 그런데 합계 쪽을 확인 하시면 더 큰 의미를 발견하실 수 있습니다. 상위 25%의 수익성 합이 78천만이고, 하위 75%의 합은 61천만 입니다. 다른 말로 하면, 상위 25%의 수익이 전체 수익의 반 이상을 차지하고 있다는 겁니다.

 

 

 

2. 테이블 분석 (Chi-square tests)


성별에 따라서 수익성의 상위 25%와 하위 75%에 차이가 발생하는지를 분석할 수 있습니다. 성별, TOP_25는 범주형 변수이기 때문에 빈도분석을 사용하려고 합니다.

 

요약통계량에서 사용했던 그 data set([그림 6-1])을 선택하신 후 [메뉴바 > 작업 > 설명 > 테이블 분석]을 클릭합니다.

 

[그림 6-7]과 같이 테이블 변수에 성별“TOP_25”를 할당 합니다.

 

[그림 6-7]


 

그리고 왼쪽 패널에서 [테이블]을 클릭합니다. [그림]에서 [테이블에 허용된 변수]에서 “GENDER”(성별)“TOP_25”를 끌어서 오른쪽 테이블에 열 맨 윗줄과 행 맨 왼쪽에 순서대로 놓습니다.

 

[그림 6-8]


 

[그림 6-8] 과 같이 셋팅 되셨나요?

 

[그림 6-9]


 

그리고 왼쪽 패널의 [테이블 통계량 > 연관성]을 클릭하시면 카이제곱 검정을 선택하실 수 있습니다.

 

[그림 6-10]


 

카이제곱 검정을 체크한 후 [실행] 버튼을 클릭합니다.

 

[그림 6-11] 과 같은 결과가 나왔나요? 정말 잘 하셨습니다.

 

[그림 6-11]


 

테이블 통계량에서 칼럼 백분율을 보시면, 하위 75%에서는 남성의 백분율이 73.62%로 가장 높은 비율이고, 여성이 71.32%로 가장 낮은 비율입니다. 하지만 상위 25%에서는 여성이 28.68%로 가장 높은 비율을 갖고 있습니다.

 

아래의 카이제곱 값을 확인해도 “p<0.0069” 로 통계적으로 유의미한 결과를 보여 줍니다. 여성이 남성이나 성별을 모르는 그룹에 비해 상위 25%에서 더 많은 비중을 차지할 가능성이 있다고 말할 수 있습니다.

 

그러니까, 신입사원인 제가 보고서를 낼 때에는 상위 25% 중 특히 여성에 집중하여 마케팅을 하는 것이 효율적일 수 있다!” 라고 보고 하려고 합니다.

 

여기까지 “Enterprise Guide를 이용한 Business Analytics” 였습니다. 댓글에 질문을 달아주시면, 답변을 드리도록 하겠습니다. (염치 없지만, 오류, 오타 발견도부탁 드립니다.)

 

다음 시간부터는 제가 DMR 출판사에서 다른 데이터를 가지고 간단한 시장분석을 해보려고 합니다. 아마재미 있을지도모릅니다??


감기 조심하시고, 다음 시간에 뵙겠습니다 ^^



 

오늘까지 작업한 EGP를 다운로드 하실 수 있습니다.
저는 SAS Enterprise Guide 7.1, Local 환경에서 작업했습니다.
하위 버전이거나서버환경 일 경우 실행이 되지 않으실 수 있으니 참고 바랍니다.
물론 같은 버전같은 환경이어도라이브러리 디렉토리(D:\TEMP\DMR_전략팀)가 다르거나 불러오기 파일 위치(D:\Trea_SYSOP\Enterprise Guide를 이용한 Business Analytics)가 다르면 실행되지 않습니다.

 

참조 : [Business Analytics Using SAS Enterprise Guide and SAS Enterprise Miner: A Beginner's Guide]  

 
  DMR[3].egp
DMR_Customer_Base_kr[3].xlsx
다운로드 수 | 1
 
휴대폰 번호
휴대폰 인증번호
 
 Enterprise Guide를 이용한 Market Analysis (1)
 Enterprise Guide를 이용한 Business Analytics (5)