로그인   |  회원가입  |  사이트맵  |  Contact Us
  아이디 저장하기
 
홈 > SAS Tech & Tip > SAS Text Miner 활용하기
[Text Mining] 2. 노드 및 화면 소개 2014.07.21
MYSAS 2449 0
http://www.mysas.co.kr/SAS_tiptech/n_textminer.asp?b_no=3175&gotopage=1&con=subject&keyword=&cmd=content&bd_no=34&gubun=

 * 기술적인 문제가 발생하여 두 번째 글의 업로드가 늦었습니다. 죄송합니다.

 

[Text Mining] 2. 노드 및 화면 소개

 
안녕하세요 오늘은 Text Miner 두 번째 시간으로 텍스트 마이닝을 구성하고 있는 노드에 대하여 알아보도록 하겠습니다.
 
사실 텍스트 마이너가 따로 프로그램이 존재하는 것은 아니고 우리가 널리 사용하고 있는 Enterprise Miner에 포함되어 있는 기능이라고 보시면 됩니다. 실제로 살펴보면 하나의 “탭” 으로 구성되어 있습니다.
 
따라서 오늘은 각 노드 별로 어떤 기능을 가지고 있으며 어떤 경우에 주로 사용하는 지 간단히 알아보는 시간을 갖도록 하겠습니다.
 
텍스트 마이너 노드는 총 6가지로 이루어져 있으며, 구성은 아래와 같습니다.
1.     Text Cluster(클러스터)
2.     Text Filter(필터)
3.     Text Import(가져오기)
4.     Text Parsing(파싱)
5.     Text Rule Builder(규칙 빌더)
6.     Text Topic(토픽)
 
왜 저렇게 정렬해 놓았는지 궁금했는데, 자세히 보니 Text란 글자를 떼면 알파벳 순이네요; 혹시 저처럼 궁금하셨던 분들은 해결이 되시길 바라는 마음에서 적어 봅니다;;
 
1. Text cluster
 가. 상호 배타적인 클러스터(소규모 그룹)를 생성하여 문서를 분류합니다.
 나. 같은 클러스터에 소속된 문서들은 동질성을 갖고
다른 클러스터 간 문서들은 이질성을 갖습니다.
 
2. Text Filter
 가. 텍스트 파싱 이후에 실행되는 노드로써 용어를 검색하고 정렬하는 기능을 제공합니다.
 나. 텍스트 필터에 나오는 자료를 이용하여 Start/ Stop List를 만들 수 있습니다(추후 추가 설명)
 다. 용어를 가중화하여 중요도를 판별하는 기능을 보유하고 있습니다.
 
3. Text Import
 가. 외부 데이터를 가져올 때 사용하는 노드입니다.
 나. 웹 크롤링(web crawling: 웹에서 텍스트 긁어오기) 기능을 사용할 수 있습니다.
 
4. Text Parsing
 가. 형태소 분석기와 같은 기능을 수행합니다.
 나. 언어를 작은 단위까지 분석하여 각 용어별 빈도수 및 구성 보고서를 작성합니다.
 다. Start List(유지할 용어 목록)와 Stop List(제외할 용어 목록)를 적용시킬 수 있습니다.
 
5. Text Topic
 가. 텍스트를 토픽(화제) 별로 분류합니다.
 나. 각 문서들은 여러 가지 토픽에 포함될 수도 있고 아예 포함되지 않을 수도 있습니다.
 다. 토픽 뷰어를 이용하여 보다 자세한 토픽 분류 결과를 확인할 수 있습니다.
 
6. Text Rule Builder
 가. 타겟 변수를 설정하여 그에 맞는 용어별 조합식을 생성합니다.
 나. 타겟 변수로 이용할 수 있는 변수는 범주형(categorical) 변수여야 합니다.
    (연속적인 점수, 돈 등의 변수는 불가)
 
Text Miner를 활용한 분석화면 예시
 - 어차피 EM을 사용하기 때문에 구성법 자체는 크게 어렵지 않습니다. 아래는 제가 쓰는 방법입니다.
다음 시간 부터는 본격적인 분석작업을 시작하게 됩니다. 지금까지는 초반이라 기능 설명 위주로 진행했다면, 다음주에는 실습 위주로 포스팅을 진행하도록 하겠습니다!
 
다음 시간 예고
 
3. 텍스트 마이닝 시작하기
4. 텍스트 파싱1(Text Parsing)
 
오늘은 여기까지 말씀드리는 것으로 마무리하도록 하겠습니다. 짧지 않은 글 읽어주셔서 감사드리고, 궁금한 점이 있으시면 언제든지 댓글을 남겨주시기 바랍니다!
 
좋은 하루 되세요 감사합니다!

 

 
 
    
 
 [Text Mining] 3. 텍스트 마이닝 시작하기
 [Text Mining] 1. 텍스트 마이닝 소개