로그인   |  회원가입  |  사이트맵  |  Contact Us
  아이디 저장하기
 
홈 > SAS Tech & Tip > SAS Text Miner 활용하기
[Text Mining] 7. 텍스트 토픽(Text Topic) 2014.08.14
MYSAS 2665 0
http://www.mysas.co.kr/SAS_tiptech/n_textminer.asp?b_no=6143&gotopage=1&con=subject&keyword=&cmd=content&bd_no=34&gubun=

[Text Mining] 7. 텍스트 토픽(Text Topic)

 
안녕하세요, 오늘은 텍스트 토픽 노드를 활용하여 텍스트를 분석해보는 시간을 갖도록 하겠습니다.
 
텍스트 토픽은 말 그대로 텍스트 속에서 공통된 토픽, 즉 화제를 추출해내는 작업을 수행하는 노드입니다.
텍스트 토픽은 꼭 텍스트 파싱 또는 텍스트 필터 이후에 수행되어야 하는데요,
만약 텍스트 필터를 생략하고 텍스트 파싱 이후에 바로 텍스트 토픽 노드를 연결하여 실행하게 되면,
가중치를 계산할 때 텍스트 필터의 기본설정(로그 x 엔트로피 : 자세한 내용은 “6.텍스트필터 참조)을 사용하게 됩니다.
 
그러면 우선 텍스트 토픽의 메뉴 먼저 살펴보도록 하겠습니다.
 
메뉴를 보시면 단일어 토픽, 다중어 토픽이란 용어를 보실 수 있는데요,
단일어 토픽이라는 것은 다시 말해 하나의 단어로써 여러 문서를 분류하겠다는 뜻입니다.
예를 들면 “죽음” 이라는 단어만으로 문서를 분류하겠다는 얘기가 되죠.
따라서 정확성이 좀 떨어질 가능성이 높다고 볼 수 있겠습니다.
그러나 분류된 문서들의 성격을 분류해내기에 매우 수월하겠죠.
 
반면 다중어 토픽 개수는 여러 단어로 문서를 분류한다는 뜻입니다.
“죽음” “사건” “피해” 이런 단어들을 한꺼번에 이용하여 여러 문서를 구분하겠다는 것이죠.
따라서 분류의 정확성은 높아지지만 분류된 문서들의 공통된 성질을 이끌어내기가 비교적 어렵다는 특징이 있습니다.
 
토픽 상관관계는 토픽간에 상관관계가 존재하는 것을 허용할 것인지를 결정하는 옵션이구요,
기본 설정(default)은 ‘아니오’ 입니다.
 
자, 그럼 텍스트 토픽을 실행시켜 봅시다.
 
 
실행이 끝난 후 확인을 눌러주세요.
 
 
이제 좌측 메뉴에서 토픽 뷰어 옆의 ‘…’버튼을 클릭하여 토픽 뷰어를 불러옵시다.
 
 
뷰어를 보면 토픽별로 어떤 문서들이 분류되었는지 확인할 수 있습니다.
 
그럼 이제 사건, 살인, 다른, 현장, +발견되다 라는 토픽으로 분류된 영화에는 어떤 것들이 있는지 살펴볼까요.
가장 아래쪽 ‘문서’ 파트를 보시면 위에서부터 5개의 문서가 노란색으로 선택되어 있는 것을 볼 수 있습니다.
이 화면에는 나오지 않았는데요, 이 영화들은 제일 위부터 차례대로
살인의 추억, 공동경비구역JSA, 부당거래, 화차, 부러진 화살 입니다.
음,, 뚜렷하다고 보긴 어렵지만 그래도 비슷한 느낌을 갖고 있는 영화들이네요.
뭔가 어두운 분위기와 함께, 어떤 사건, 주로 살인사건과 관련된 영화들입니다.
이런 식으로 분류해 주는 것이 바로 텍스트 토픽의 역할이라고 볼 수 있겠습니다.
 
하나만 더 살펴볼까요.
 
조직, 전쟁, 범죄, 최대, 보스에 속해있는 영화들입니다.
범죄와의 전쟁, 신세계, 달콤한 인생, 아저씨, 두사부일체는 죄다 조폭들이 나오는 영화죠?
최종병기 활과 실미도는 군인들이 나오는 영화입니다. 결론적으로 봤을 때 죽어라 싸움질만 하는 영화만 모아놓았네요.
 
텍스트 토픽은 상호 배타적인 분류가 아니기 때문에 하나의 문서가 여러 가지 토픽에 포함될 수 있습니다.
만약 상호 배타적인 분류를 하고 싶으시다면 다음 시간에 다룰 텍스트 클러스터를 활용하시면 됩니다.
텍스트 토픽의 장점은 어떻게 보면 완벽한 분류를 포기하고 최대한 비슷한 문서들끼리 모아놓는 노력을 하기 때문에
텍스트 클러스터에 비해 유연성과 정확성이 높고 또한 해석하기 용이하다는 점이 있겠죠.
다만 토픽에 포함되지 않는 문서들이 존재하거나 한 문서가 여러 가지의 토픽에 속할 수도 있다는 점이
단점이 될 수 있겠습니다.
 
오늘 준비한 내용은 여기까지입니다. 궁금한 점이나 보완해주실 사항이 있으시면 언제든지 댓글로 회신 부탁드려요!
 
내일부터는 광복절 휴일이네요, 여러분 모두 건강하고 행복한 휴일 보내시기 바랍니다!
감사합니다!
 
 
    
 
 [Text Mining] 8. 텍스트 클러스터(Text Cluster)
 [Text Mining] 6. 텍스트 필터(Text Filter)