로그인   |  회원가입  |  사이트맵  |  Contact Us
  아이디 저장하기
 
홈 > SAS Tech & Tip > 쉬운 SAS, SAS EG
[Excel보다 쉬운 SAS, SAS EG 따라잡기]Final. 다변량 자료분석(판별분석) 2013.02.07
MYSAS 4750 0
http://www.mysas.co.kr/SAS_tiptech/i_eg.asp?b_no=2534&gotopage=1&con=subject&keyword=&cmd=content&bd_no=28&gubun=

 

Lesson_Final. 다변량 자료분석(판별분석)

*관련 메뉴 : 작업 – 분석 – 다변량 – 판별분석 

*Dataset: SASHELP.CLASS, SASHELP.CARS

 

  들어가는 말

 

 안녕하세요. MYSAS 입니다. 드디어 "Excel보다 쉬운 SAS, SAS EG 따라잡기" 마지막 강의입니다. 처음으로 시작한 날은 2012.01.06 벌써 1년이 지났네요. 다들 마무리가 중요하신거 아시죠^^. 유종의 미를 거둡시다. 오늘은 [다변량 자료분석]의 [판별분석]을 배워 보겠습니다.

 

  Lesson

 

  

 

  판별분석(Discriminant Analysis)

 

 측정된 변수들을 이용하여 각 관측치들이 2개 이상의 그룹 중 어느 그룹에 속하는지를 판별하는 분석방법을 말합니다. 예를 들어 라면의 경우 먹어본 뒤 그 라면의 이름을 알아맞히는 경우를 생각할 때 면의 형태, 국물의 맛 등으로부터 판별해서 결과를 이끌어 내는 방법을 말합니다. 또한, 직업을 가진 사람들 중 계약직, 파견직, 정규직의 3개의 집단으로 분류했을 때 월 수입과 휴가 등을 알고서 어떤 집단에 속하는지를 판별하는 것도 판별분석에 속합니다.

Dataset: SASHELP.CLASS의 형태

Age, Height, Weight의 변수를 이용하여 성별을 판별했을 때, 얼마나 맞는지 확인하는 과정을 보여드리겠습니다.

1단계: 판별분석 선택


2단계: 데이터 선택(분석변수: Age, Height, Weight / 분류변수: Sex)


3_1단계: 옵션(판별함수 페이지 옵션)


판별함수 페이지 옵션은 필요한 경우 선택하면 됩니다.
기본적으로 교차타당성 분류의 요약 결과 각 관측치에 대한 교차타당성 결과표시를 설정하겠습니다. 조금 더 자세히 보고 싶을 경우 다른 옵션을 선택하면 됩니다.

3_2단계: 옵션(표본크기에 비례해서 지정)

위 Dataset을 가정하여 설명드리겠습니다.
같은 값으로 지정: 0.5로 동일하게 지정됩니다.
표본크기에 비례해서 지정: 분류변수 값의 빈도에 비례하여 지정됩니다. 
각 레벨에 대한 확률 입력: 직접 수치를 입력하되 합이 1이 되어야 합니다.

4단계: 새로운 데이터 분류

분류할 새로운 데이터란 검정하고 싶은 Dataset을 기존 데이터로 만들어진 판별함수에 적용하여 예측할 수 있습니다. 위 데이터를 가정한다면 검정하고 싶은 Dataset은 남녀로 판단하게 됩니다.

5단계: Dataset출력
위에서 선택한 옵션에 따라 사후확률 및 교차타당성 분류를 선택하겠습니다.


6단계: 결과





여기서는 Linear Discriminant Function for Sex, Posterior Probability of Membership in Sex Number of Observations and Percent Classified into Sex 및 Error Count Estimates for Sex 위로 보겠습니다.

1) Linear Discriminant Function for Sex
 남자와 여자에 대한 팔변함수가 생성되었습니다. 여기에서는 각 관측치를 대입하여 남자로 판별되 확률과 여자로 판별될 확률을 비교할 수 있습니다. 그 결과는 Posterior Probability of Membership in Sex을 통해 알 수 있습니다.

2) Posteriro Probability of Membership in Sex
 3, 5, 6, 7, 9, 19 관측치가 잘못 판단되었습니다.

3) Number of Observations and Percent Classified into Sex 및 
  Error Count Estimates for Sex
 
정오분류표로
   남자를 여자로 잘못 판단한 비율: 40%
   여자를 남자로 잘못 판단한 비율: 22.22%
   전체 오분류 비율: 31.58%
 Priors의 값은 3_2단계에서 설정한 표본크기에 비례해서 지정을 반영한 결과입니다.
   남자의 경우: 10/19 = 약 0.5263
   여자의 경우:  9/19 = 약 0.4737

결과를 반영한 Dataset

 

 

  차회 예고 > 다변량 자료분석(요인분석, 군집분석, 판별분석) 정답 발표!!

 

지금까지 부족한 강의를 봐주신 여러분께 감사의 말씀을 드립니다. 
강의는 끝이 났지만, 퀴즈는 아직 남아있습니다.
끝까지 화이팅입니다^^
 

 

  QUIZ

 


 

 마지막 QUIZ

 

Q. SASHELP.CARS를 이용하여

데이터는 아래와 같이 설정 후,


옵션은 아래와 같이 설정 후,


Error Count Estimates for Origin에 대해서 적어주세요.
예시답변)

Rate: 남 0.4 여 0.2222 Total 0.3158
Priors: 남 0.5263 여 0.4737


쪽지 보내주세요~~소정의 상품이 있습니다!!
정답을 맞추신 분들중 추첨을 통해 10명에게
스타벅스 카페라떼 1잔씩 보내 드립니다. 많은 참여 부탁드립니다.
참고로 회원정보 수정에 가셔서 본인의 핸드폰이 맞는지 확인 한번 해주세요.
정답 발표 날 : 2013.02.13(수요일)



감사합니다.

  

MYSAS 올림.

 
 

 
 
    
김현우   [2013/02/07 5:41]
고생많으셨습니다!!
 
 [Excel보다 쉬운 SAS, SAS EG 따라잡기]마치면서...
 [Excel보다 쉬운 SAS, SAS EG 따라잡기]31. 다변량 자료분석(군집분석)