로그인   |  회원가입  |  사이트맵  |  Contact Us
  아이디 저장하기
 
홈 > SAS Tech & Tip > SAS Text Miner 활용하기
[Text Mining] 3. 텍스트 마이닝 시작하기 2014.07.22
MYSAS 2718 0
http://www.mysas.co.kr/SAS_tiptech/n_textminer.asp?b_no=3180&gotopage=1&con=subject&keyword=&cmd=content&bd_no=34&gubun=

[Text Mining] 3. 텍스트 마이닝 시작하기

 
안녕하세요 오늘은 텍스트 마이닝 세 번째 시간입니다.
 
오늘은 그 동안 했던 재미없는 이야기는 그만두고 실전 분석작업에 필요한 기초작업을 수행하는 시간을 갖도록 하겠습니다.
오늘의 컨텐츠 구성은 아래와 같습니다.
1. 프로젝트 만들기
2. 라이브러리 만들기
3. 다이어그램 만들기
4. 데이터소스 구성하기
 
데이터소스 구성을 제외하면 나머지 작업들은 간단히 수행할 수 있는 것들입니다.
따라서 이번 시간은 사진 예제를 보시면서 본격적인 텍스트 마이닝을 시작할 수 있는
바로 전 단계까지 진행하고 마치도록 하겠습니다.
 
1. 프로젝트 만들기
- 기존에 Enterprise Miner(이하 EM)를 접해보신 분이라면 이해가 빠르시겠지만,
혹시라도 EM을 접해보지 못한 분들을 위하여 처음부터 시작하도록 하겠습니다.
 
- EM을 실행하면 위와 같은 화면이 나옵니다. 여기서 “새로운 프로젝트”를 클릭해주세요
 
 
- 프로젝트이름과 디렉터리를 설정해 주시면 해당 디렉터리에 해당 프로젝트이름의 폴더가 생성됩니다. “다음”을 클릭해주세요
 
 
- 완성된 프로젝트의 정보를 보여주는 화면입니다. “마침”을 클릭하시면 프로젝트가 생성됩니다.
 
2. 라이브러리 만들기
- SAS를 사용하시면서 “라이브러리”라는 말을 많이 들으셨으리라 생각됩니다.
  저는 처음에는 라이브러리라길래 학교에 있는 중앙도서관 생각했었는데
  영어권에서는 그냥 서적이나 자료가 좀 모여있으면 그걸 라이브러리라고 부를 수 있는 모양입니다.
  스케일이 작군요 땅덩이도 큰 곳에서 사는 사람들이 ㅎㅎ
 
- EM 상단의 파일메뉴에서 새로만들기 메뉴를 보시면 라이브러리를 생성할 수 있습니다. “라이브러리”를 클릭해 주세요
- 파일메뉴 바로 아래에 있는 해 모양의 아이콘을 클릭하는 방법도 있습니다.
 
 
- 기존에 만들어진 라이브러리가 없으므로 새로운 라이브러리만 선택 가능합니다. “다음”을 클릭해주세요
 
- 앞서 프로젝트를 만들 때와 마찬가지로 라이브러리의 이름과 경로를 지정해줍니다.
  프로젝트와 다른 점은, 새로운 폴더를 생성하는 것이 아니라 기존 폴더에 이름을 새로운 붙인다는 점입니다.
  SAS/BASE의 LIBNAME 명령어와 같은 개념이라고 보시면 될 것 같습니다.
- 라이브러리의 이름과 경로를 지정하신 후 “다음”을 클릭해주세요
 
- 생성된 라이브러리의 정보를 보여주는 화면입니다. “마침”을 클릭하면 라이브러리가 생성됩니다.
 
3. 다이어그램 만들기
- 다이어그램은 비교적 간단히 만들 수 있습니다.
- 파일메뉴와 해 모양 아이콘으로 만들 수도 있지만 저는 다이어그램 아이콘을 우클릭하여 다이어그램 생성을 해보았습니다.
  (셋 중에 편한 방법을 이용하세요~)
 
- 다이어그램은 이름만 지정하면 되네요? 간단해서 좋습니다 ㅎ
- 이름을 지정하신 후 “확인”을 클릭해주세요
 
4. 데이터소스 만들기
- “파일-새로만들기-데이터소스”를 차례로 클릭하여 데이터소스 구성을 시작해보겠습니다.
 
- “다음”을 누릅니다.
 
- “찾아보기”를 누르면 아래와 같은 화면이 나옵니다.
 
- 왼쪽 칸에는 라이브러리, 오른쪽 칸에는 선택된 라이브러리에 포함된 데이터셋들이 표출됩니다.
- 저는 “Movie”라는 데이터셋을 선택해보겠습니다. “확인”을 클릭합니다.
 
- 저렇게 테이블명이 입력됩니다. “다음”을 누릅니다.
 
- 데이터의 정보를 나타내는 화면이 표출됩니다. “다음”을 누릅니다.
 
- 메타데이터 관리를 어떻게 할 것이냐를 묻는 창이 나옵니다.
  메타데이터는,, 어떤 데이터를 분석한 데이터,,정도로 보시는 게 어떨까 싶네요.
  “이 데이터는 어떤 변수로 구성되어 있으며 변수의 성격은 각각 무엇이며, 관측치는 어떤 포맷인가” 등등
  말 그대로 데이터를 위한 데이터라고 보시면 됩니다.
- 저는 “기본”을 선택하기로 했습니다. 디폴트 만세
- “다음”을 누릅니다.
 
- 이미 접해보신 분들은 아시겠지만 요놈이 메타데이터인데요, 분석을 위해서는 종속변수,,
  즉 타겟변수가 필요하기 때문에 저는 영화평점 변수를 Target변수를 설정하였습니다.
- 기타 등등 분석에 필요한 기초작업을 마친 뒤 “다음”을 누릅니다.
 
- 의사결정에 기반한 모델을 생성하시겠냐고 묻는데 그저 쿨하게 “다음”을 눌러주세요
 
- 표본 데이터셋을 생성할 것인지 묻는 화면이 나옵니다. 관측치(행)가 60개 뿐이므로
  저는 따로 표본을 만들지 않기로 했습니다.
- “다음”을 누릅니다.
 
- 세그먼트 ID라,,,,,
- “다음”을 눌러주세요
 
- 메타데이터가 완료되었다는 화면과 함께 변수들을 성격별로 나누어서 그 개수를 보여줍니다.
- “마침”을 누르시면 드디어 데이터소스 생성이 완료됩니다.
 
데이터소스 만드는 게 사실 과정이 길어서 그렇지 복잡하지 않습니다.
그리고 데이터소스를 생성할 때 깜빡하고 메타데이터에 넣지 않은 내용이 있을 때에는
“유틸리티” 탭에 있는 “메타데이터” 노드를 이용하여 언제든지 재구성할 수 있으니 안심하셔도 됩니다.
 
오늘은 여기까지 진행하도록 하겠습니다.
다음 시간에는 드디어 텍스트 마이닝 노드를 이용하여 분석작업을 시작하게 됩니다.
텍스트 마이닝의 가장 첫 번째 단계인 “텍스트 파싱” 노드를 이용하여 분석을 진행하도록 하겠습니다.
그럼 다음 시간에 뵙도록 하겠습니다. 긴 글 읽어주셔서 감사합니다. 좋은 하루 되세요!
 
 
    
 
 [Text Mining] 4. 텍스트 파싱(Text Parsing) 1
 [Text Mining] 2. 노드 및 화면 소개