로그인   |  회원가입  |  사이트맵  |  Contact Us
  아이디 저장하기
 
홈 > SAS Tech & Tip > SAS Text Miner 활용하기
[Text Mining] 5. 텍스트 파싱2 - START 리스트 만들기 2014.07.30
MYSAS 2582 0
http://www.mysas.co.kr/SAS_tiptech/n_textminer.asp?b_no=3195&gotopage=1&con=subject&keyword=&cmd=content&bd_no=34&gubun=

[Text Mining] 5. 텍스트파싱2 – Start List 만들기

 
안녕하세요 텍스트 마이닝 다섯 번째 시간입니다.
 
오늘은 텍스트파싱 노드에 적용할 수 있는 Start List와 Stop List를 만드는 법을 살펴보도록 하겠습니다.
 
시작하기에 앞서 간단히 전에 알아보았던 내용을 되돌아보도록 하겠습니다. 텍스트 파싱이란, 텍스트를 형태소나 품사,
어간별, 출현빈도수를 분석하여 결과를 보여주는 노드였구요, 스타트 리스트는 텍스트 파싱에 포함시킬 단어의 목록,
그리고 스탑 리스트는 텍스트 파싱에서 제외시킬 단어의 목록을 뜻하는 용어였습니다.
 
한 가지 기억하실 것은, 스타트 리스트와 스탑 리스트는 동시에 적용할 수 없습니다. 왜냐하면 두 가지 리스트에 동시에 포함될
단어가 있을 수 있기 때문이죠. 스타트 리스트에 있어서 분석대상에 포함시켰는데 동시에 스탑 리스트에도 포함되어 있다면,
이 단어를 어떻게 처리해야 할까요? 따라서 두 가지 리스트를 동시에 업로드할 수 없도록 시스템이 막고 있습니다.
 
그렇다면 오늘은 텍스트 파싱 결과물과 엔터프라이즈 가이드를 이용하여 스타트 리스트를 간단히 만들어보는 시간을 갖도록
하겠습니다. 스탑 리스트는 제외 대상만을 포함시킬 뿐 결국 스타트 리스트와 원리가 같기 때문에 스타트 리스트만
만들어보도록 하겠습니다.
 
우선 텍스트 파싱 노드를 우클릭하여 결과창을 불러옵니다.
 
 
우측열 두 번째 칸의 “용어” 창을 확대시킵니다.
맨 위의 첫 번째 행을 선택하여 블록이 쳐진 상태로 만듭니다.
 
저는 출현문서수가 3개 이상인 단어만 스타트 리스트에 포함시키기로 하였습니다.
따라서 문서수가 2개 이하인 단어들은 선택하지 않았습니다.
원하는 범위까지 블록을 설정하였으면, Ctrl + C로 복사합니다.
 
그 다음 엔터프라이즈 마이너를 실행시킵니다. 팝업이 나타나면 “새로운 데이터”를 클릭
 
 
일단 여기서는 “마침”을 눌러주세요
 
 
마침을 클릭하면 아래와 같은 화면이 나타납니다. 이제 Ctrl + V로 붙여넣습니다.
 
 
붙여 넣고 나면 단어 옆에 “+”가 붙어있는 단어들이 있습니다.
주로 “어간”을 보유하고 있는 용언들의 경우인데요, 플러스를 없애주기 위하여 Ctrl + H로 바꾸기 창을 열겠습니다.
“+ “ (플러스와 빈칸 하나), “+”(플러스 하나)를 빈칸으로 “모두 바꾸기” 해주세요
(사실 텍스트 필터를 이용하면 위와 같은 바꾸기 작업을 생략할 수 있으나,
텍스트 필터는 아직 말씀드리지 않았기 때문에 텍스트 파싱을 이용하는 점 양해 부탁드립니다.
스타트 리스트 만들기에 대해서는 텍스트 필터 시간에 다시 한번 언급하도록 하겠습니다)
 
완료되었으면 각 칼럼(열, 변수)의 이름을 바꿔줍니다. 칼럼을 선택한 뒤 우클릭하여 속성 메뉴를클릭합니다.
이름을 바꿔주실 때, 단어가 적혀있는 열(사진에서는 A)은 “term”으로, 다른 열(사진에서는 B)은 “role”로 바꿔주세요.
 
 
요런 식으로 바꿔줍니다.
 
다 바꾼 뒤에는 화면 우측에 있는 내보내기 메뉴를 클릭합니다.
 
 
요런 메시지는 쿨하게 예
 
 
데이터 이름을 정해주시고, 폴더는 앞서 EM에서 지정한 라이브러리 폴더에 넣어주시는 것이 추후 정신건강에 좋습니다.
 
 
자, 이제 텍스트 파싱 메뉴로 돌아가 봅시다. 아래쪽의 START 리스트가 보이시나요?
오른쪽에 있는 쩜쩜쩜 버튼을 클릭하시면 업로드 메뉴가 표출됩니다.
 
아직 등록하기 전이라 아무것도 없네요,, “가져오기”를 클릭해주세요.
 
 
테이블을 선택하고 확인을 클릭합니다.
 
 
스타트 리스트가 업로드 되었습니다.
 
그럼 이제 확인을 누른 뒤 텍스트 파싱을 실행해 봅니다. 결과는 아래와 같습니다.
목록 중 제일 아래에 있는 쩜쩜쩜과 따옴표가 “유지”라는 변수에서 “N”의 값을 나타내고 있는 것이 보이시나요?
바로 스타트 리스트에서 제외시킴으로써 텍스트 파싱의 대상이 되지 않았다는 것을 나타냅니다.
요렇게 설정해둔 텍스트 파싱 노드로부터 파생되는 텍스트 필터, 클러스터, 토픽 및 규칙 빌더에서는
저런 친구들은 분석대상에서 제외됩니다.
 
오늘 준비한 내용은 여기까지구요,
항상 여러분들께 도움이 되는 글을 쓸 수 있도록 노력하겠다는 말씀 드리면서 이만 마치도록 하겠습니다.
 
잘못된 내용이나 지적이 필요할 때에는 언제든지 댓글 남겨 주시기 바랍니다.
 
좋은 하루 되세요! 감사합니다!
 
 
    
 
 [Text Mining] 6. 텍스트 필터(Text Filter)
 [Text Mining] 4. 텍스트 파싱(Text Parsing) 1