사이트맵  |  Contact Us
 
홈 > SAS Tech & Tip > SAS Enterprise Guide
Enterprise Guide를 이용한 Business Analytics (2) 2018.10.07
전보배 42 0
http://www.mysas.co.kr/SAS_tiptech/i_eg.asp?b_no=7758&gotopage=1&con=subject&keyword=&cmd=content&bd_no=28&gubun=

지난 시간에는 Enterprise Guide(이하 ‘EG’)를 열어보았습니다.

오늘은 갖고 있는 Excel 데이터를 가져와서 EG에서 사용할 수 있는 sas data set으로 바꾸겠습니다.

 

제가 DMR출판사 전략팀 신입사원이었던거 기억하시죠?

우리 DMR출판사 전략팀은 sas data set ‘dmr_st’ 라는 라이브러리에 저장한다고 합니다.

 

본격적인데이터 가져오기를 하기 전에 간단하게 sas data set과 라이브러리(library)를 알아보겠습니다.

 

 

1. sas data set

sas data set sas가 생성하고 처리하는 sas 파일이며, sas 라이브러리에 저장이 됩니다.

sas data set에는 sas에서 처리할 수 있는 행렬로 이루어진 테이블로 구성되어 있으며, 그 안에 데이터가 들어갑니다. 쉽게 말하자면, sas에서 만들어진 표! 라고 이해하시면 되겠습니다.

sas data set에는 데이터 값뿐만 아니라, 그 데이터의 유형, 길이, 심지어 데이터가 생성하는 데 사용된 엔진의 정보를 포함하기도 합니다.

 

[그림 2-1]


 

 

 

2. 라이브러리 (library)

라이브러리는 SAS 파일의 저장장소로 파일 시스템 경로에 별명을 지어준 것입니다.

예를 들면, [C:\따오기\독수리\두견\뻐꾸기] 라는 경로를 매번 [C:\따오기\독수리\두견\뻐꾸기]라고 부르는 것이 아니라 줄여서 “birds” 라는 라이브러리로 설정한다고 합시다. 그 후에 그저 “birds”라고만 불러도 sas에서는 [C:\따오기\독수리\두견\뻐꾸기]로 알아듣게 됩니다.

라이브러리에는 임시라이브러리와 영구라이브러리가 있습니다. sas 세션을 종료했을 때, 그 안에 데이터들도 삭제가 되면 임시라이브러리, 삭제가 되지 않고 저장되어 있으면 영구라이브러리 입니다.

임시라이브러리는 “work” 밖에 없고, 나머지는 모두 영구라이브러리 입니다.

EG에서는 라이브러리를 따로 지정하지 않으면, “work” 라이브러리에 sas data set이 저장 됩니다.

, 넋 놓고 작업하시다 보면 sas data set이 날아가는 아픔을 맛 보아야 하니 소중한 데이터는 꼭영구 라이브러리에 담으셔야 합니다.

 

 

3. Importing the Data

엑셀 데이터를 sas data set으로 불러오는 것이 오늘의 목표였는데, 앞서 알아야 할 개념들이 있어서 이제야 본론으로 들어가겠습니다.

아래와 같이 생긴 “DMR_Customer_Base_kr.xlsx” 데이터를 본 글에 첨부하였으니 다운 받으시기 바랍니다.

원서 [Business Analytics Using SAS Enterprise Guide and SAS Enterprise Miner: A Beginner's Guide]에서 다루는 데이터에서 달러화를 원화로 바꿨습니다.

 

[그림 2-2]


 

, 이제 이 엑셀 파일을 EG를 이용하여 sas data set으로 가져오겠습니다.

 

[그림 2-3]


 

 EG 앞에 폴더창을 띄우고 “DMR_Customer_Base_kr.xlsx”를 클릭한 후 쭉 끌어다가 EG에 놓으면 됩니다. Click & Drag & Drop!! 쉽죠?

, 물론 메뉴바에서 [파일 > 데이터 가져오기]를 클릭하셔서 데이터 위치를 지정해주시면 결과는 같습니다만, 저는 조금이라도 덜 마우스를 클릭하는 방향을 위주로 설명 드리도록 하겠습니다.

Click & Drag & Drop을 하셨다면, 아래와 같은 팝업창이 나타날 것입니다.

 

[그림 2-4]


 

위 창에서 [라이브러리] 칸에 “WORK”라고 써진 것 보이시죠? 이렇게 EG에서는 디폴트로 임시라이브러리인 “WORK”가 지정되니 신중에 신중을 기하셔야 합니다.

저희는 아직 라이브러리 할당하는 방법을 알지 못하니 지금은 넘어가고 다음시간에 다루도록 하겠습니다. 다음시간에 또 해야 할 것이 있는데, 라이브러리 이름이나, sas data set 이름에 관한 규칙입니다. 지금은 전혀 문제 없지만, 실무에서 데이터 다루실 땐 필요한 부분이라 알려드리도록 하겠습니다.

그럼 다음시간을 기대하며, [다음] 버튼을 클릭합니다.

 

[그림 2-5]


 

엑셀에서는 여러 장의 시트를 생성할 수 있지요? 지금 저희가 가지고 있는 엑셀파일에는 하나의 시트 밖에 없어서 [워크시트 사용] 창에 “DMR Customer Base” 만 나타나지만, 여러 개일 경우에는 그 시트들이 다 나타나 사용할 시트를 선택하셔야 합니다.

 

[워크시트 내에서 특정 셀 범위 사용] 부분은 엑셀 중간 부분부터 데이터가 시작될 경우 아래처럼 박스를 체크하시고, 그 범위를 선택해 주시면 됩니다. 지금은 굳이 안 하셔도 됩니다.

 

[그림 2-6]


 

[범위의 첫 번째 행은 필드 이름 포함]은 말 그대로 표의 첫 번째 행을 데이터로 인식하지 않고 칼럼 이름으로 인식하겠다는 뜻입니다.

[다음] 버튼을 클릭해 볼까요?

 

[그림 2-7]


 

엑셀의 표 첫 번째 행이 소스 이름, 이름, 레이블로 들어와 있습니다. 글의 가독성을 높이기 위해 레이블은 한글로 달아볼까요?

레이블 칸을 느리게 더블클릭 하면 이름을 바꿀 수 있도록 활성화 됩니다.

 

[그림 2-8]


 

이번에는 고객번호의 형식을 숫자가 아니라 문자로 바꿔보도록 하겠습니다.

 

[그림 2-9]


 

고객번호[형식]을 살짝 클릭하면, 다른 형식들을 선택하실 수 있습니다.

그 중 문자를 선택하겠습니다.

 

[그림 2-10]


 

이런 팝업창이 뜨지요? 샘플 데이터는 몇 개 되지 않아 이 팝업창이 큰 의미가 없지만, 현실에서 100만건 1000만건의 큰 데이터를 다루실 때에는 중요합니다.

숫자를 문자형식으로 바꾸면, 데이터 길이를 정해주어야 하는데, EG에서는 그 열의 데이터를 스캔해서 자동으로 길이를 정해줍니다.

그때, 전체를 스캔 할 것인가, 몇 건만 스캔 할 것인가를 결정해주어야 합니다. 1000만건을 모두 스캔한다면 아무래도 시간이 걸리게 되겠지요?

 

어쨌든 지금 우리는 [확인] 버튼만 누르시면 됩니다.

그리고 [마침] 버튼을 눌러 주세요.

 

[그림 2-11]


 

나왔습니다! 엑셀파일을 sas data set으로 바꿨습니다!

저처럼, 한글 레이블이 안 보이시는 분은 옵션을 설정해 주시면 됩니다.

[메뉴바 > 도구 > 옵션]으로 들어가셔서 왼쪽 패널의 [데이터>일반]을 선택합니다.

창 하단부에 아래와 같이 [칼럼 대신 레이블 사용]을 체크해 주시기 바랍니다.

 

[그림 2-12]


 

sas data set 이 나온 상태에서 [F4] 키를 누르시면 작업공간으로 가실 수 있습니다. (다시 누르시면 직전 작업으로 갑니다.)

작업공간에 아래 그림처럼 작업들이 이어져 있으면 오늘의 할 일이 끝납니다.

 

[그림 2-13]


 

작업 하나하나를 캡쳐해서 설명드려서 글은 길어졌지만, 생각해보면, 한글 레이블을 지정해줄 때를 제외하면 저희가 한것은 마우스 클릭 뿐입니다.

이제 여러분은 마우스만 가지고, EG에서 엑셀파일 불러오기를 하실 수 있게 되었습니다.

 

DMR 출판사 신입사원인 저는 퇴근하도록 하겠습니다. 

 

다음주에 뵙겠습니다.

 

참조 : [Business Analytics Using SAS Enterprise Guide and SAS Enterprise Miner: A Beginner's Guide]

 
  DMR_Customer_Base_kr[2].xlsx
다운로드 수 | 1
 
휴대폰 번호
휴대폰 인증번호
 
 Enterprise Guide를 이용한 Business Analytics (3)
 Enterprise Guide를 이용한 Business Analytics (1)