로그인   |  회원가입  |  사이트맵  |  Contact Us
  아이디 저장하기
 
홈 > SAS마이닝 챔피언쉽 > 인터뷰
[15회] SAS분석챔피언십 후기 - 이화여자대학교 통계학과 이종화 2017.10.10
MYSAS 104 0
http://www.mysas.co.kr/sas_mining/c_mining.asp?b_no=7470&cmd=content&bd_no=10

[은상] 이화여자대학교 통계학과 이종화 (SA127)

 

15  SAS 분석 챔피언십에서 은상을 받은 이화여자대학교 이종화입니다. 처음에 이러한 대회가 있다는 것을 알게 됐을 때, 신청할 생각조차 하지 못할 정도로 통계에 대한 지식이 부족했습니다. 그리고 대회를 위해서는 SAS를 이용해 데이터를 불러오는 것부터 공부해야 했습니다. 하지만 운이 좋게도 실력 있는 팀원들을 만나 참가할 용기를 낼 수 있었고 입상하는 영광도 누리게 됐습니다. 저처럼 실전 데이터 분석이 처음이신 분들에게 도움이 되기를 바라면서 제가 느낀 점들을 정리해보았습니다.

[문제를 확실하게 이해하기]

문제를 보시면 아시겠지만 분석할 때 거쳐야 할 단계들이 그 순서에 따라 문제로 명시되어있습니다. 문제가 곧 분석의 가이드라인인 것입니다. 그리고 문제를 풀다보면 종종 주제에서 벗어나는 작업에 몰두하기도 합니다. 저의 경우에는 개인화 컨텐츠 추천이 아닌 인기 순위에 진입할 컨텐츠 예측으로 방향을 잘못 잡아서 시간을 낭비한 적이 있습니다. 그렇기 때문에 문제를 잘 이해하기만 해도 순서를 정하지 못하거나 잘못된 타겟을 설정해서 시간을 낭비하는 일은 없을 것입니다.

[배경지식 공부하기]

대회를 신청하고 데이터를 받기까지 꽤 긴 시간이 있습니다. 이 사이에 데이터마이닝 기법이나 주제와 관련된 논문을 읽어보는 것을 추천드립니다. E-Miner는 노드만 연결하면 결과가 나오기 때문에 배경지식이 없어도 결과값은 얻을 수 있습니다. 하지만 배경지식 없이 결과만 얻을 경우, 결과를 해석할 수 없을 뿐만 아니라 각 모형별 옵션을 이해하지 못한다면 적절한 모형을 선택했음에도 불구하고 성능이 나쁜 모형을 얻게 될 수 있습니다.

[여러가지 데이터 전처리 작업 해보기]

공모전 준비 기간 중 가장 긴 시간을 데이터 전처리 작업에 사용했습니다. 아마 대회를 준비하다보면 복잡한 코드는 가장 능숙한 팀원이 맡게 될 것입니다. 이 때 상대적으로 여유로운 다른 팀원들이 여러가지 데이터 변환을 해보면 좋을 것 같습니다. 저희 조는 팀장이 추천 시스템 코드를 작성하는 동안 장르 변수를 정리했습니다. 가장 중요해보이는 변수임에도 불구하고, 장르 변수는 결측치도 많았고 잘못 기입된 경우도 많았기 때문에 자세하게 확인할 필요가 있었습니다. 결과적으로 정리된 장르 변수는 중요 변수로 모형에 포함되었습니다. 이미 다른 팀원들이 모형 적합으로 바쁠 때, 필요하지만 시간이 부족해서 하기 힘든 여러 변수 정리들을 한다면 훨씬 효율적이고 모형 성능 향상에도 도움이 될 것입니다.

[팀원의 코드를 공부하기]

분석 챔피언십은 팀과제이고 혼자서는 하기 힘든 양이기 때문에 분업이 중요합니다. 하지만 팀원들이 SAS 코딩을 할 수 없다면 분업이 불가능합니다. SAS 스쿨이 있기는 하지만 많은 양을 짧은 시간에 배우다보니 자세하게 배울 수는 없습니다. 그래서 저는 다른 팀원의 코드를 받아서 그 코드를 공부했습니다. 이렇게 공부하면 그 회 분석에 필요한 코드들 위주로 빠르게 배울 수 있습니다.

SAS 분석 챔피언십을 하는동안 계속해서 실력의 부족함을 느꼈고 그만두고 싶을 때도 많았습니다. 하지만 열심히 하는 팀원들을 보면서 이들에게 폐는 되지 말아야겠다는 생각으로 마음을 다잡았습니다. 그리고 부족한 부분은 따로 공부하거나, 그 부분대신 제가 할 수 있는 일을 찾아서 최선을 다하고자 노력했습니다. 그러자 대회가 끝날 때쯤에는 분석에 대한 자신감과 저만의 가이드라인을 얻을 수 있었습니다. 다음에 참가하시는 분들도 SAS 분석 챔피언십을 통해 많은 것들을 배워가셨으면 좋겠습니다.

감사합니다.

 

 

 

 
  
 
 [15회] SAS분석챔피언십 후기 - 호서대학교 응용통계학과 정현우
 [15회] SAS분석챔피언십 후기 - 연세대학교 정보통계학과 최세환