로그인   |  회원가입  |  사이트맵  |  Contact Us
  아이디 저장하기
 
홈 > SAS Tech & Tip > SAS 자격증 준비
[SAS BA 자격증 준비] 2. One-Sample & Two-Sample t-Tests 2017.10.09
김서연 691 1
http://www.mysas.co.kr/SAS_tiptech/c_base.asp?b_no=7453&gotopage=1&con=subject&keyword=&cmd=content&bd_no=42&gubun=

안녕하세요!

 

이번에는 지난 1번 기초 내용을 바탕으로 t검정에 대하여 알아보겠습니다. :)

 

 

 

 

 

One-Sample t-Tests

t-Test는 다음과 같은 귀무가설과 대립가설을 바탕으로 이루어집니다.


즉, 모집단의 평균과 표본의 평균은 동일하지 않다는 대립가설을 바탕으로 통계량 값을 계산합니다. 이 때 계산되는 통계량은 student's t-distribution으로 불리는 스튜던트 t분포이며, 다음의 수식으로 계산됩니다.


해당 통계량은 표본의 평균이 모집단의 평균과 얼마나 멀리 떨어져 있는지 계산하는 값입니다. 만약 t값이 크다면, 표본의 평균과 모집단의 평균 사이의 거리가 멀다는 것을 의미하므로, 귀무가설을 기각할 근거가 되는 것입니다.

SAS 코드로 해당 t-Test를 실행시키기 위해서는 다음 코드를 이용하면 됩니다.

 

PROC TTEST DATA = SAS-data-set;

CLASS variable;

PAIRED variables;

VAR variables;

RUN;

 

CLASS 명령어는 아래에서 설명할 Two-Sample t-Test를 위한 명령어입니다. 만약 CLASS 문장을 사용하지 않을 경우에는 One-Sample t-Test를 실행시킨다는 의미이며, CLASS 문장을 사용하게 될 경우 뒤에 나오는 변수들로 Two-Sample t-Test를 실행시키게 됩니다.

PAIRED 명령어는 쌍으로 비교할 변수들을 선택하는 문장입니다.

VAR 명령어는 분석을 위한 수치형 변수들을 따로 알려주는 문장입니다.

 

 

 

 

 

Two-Sample t-Tests

One-Sample t-Test에서는 표본의 평균과 모집단의 평균간의 계산이었다면, 이번에 배울 Two-Sample t-Test는 두 표본의 평균을 서로 비교하는 것입니다. 그렇게 되면 위에서 알아본 귀무가설과 대립가설이 다음과 같이 바뀌게 됩니다.


이 때 저희는 두 가지 가정을 따르게 됩니다.

 

  • 첫 번째로는 각 데이터는 독립이라는 것입니다. 즉, 두 표본에는 서로 겹치는 데이터가 존재하지 않다는 가정을 따릅니다.
  • 두 번째로는 각 데이터가 충분히 모아졌을 경우 정규분포를 따른다는 것입니다. 데이터의 양이 많은 경우에는 중심극한정리에 의하여 정규분포를 따를 것이라는 가정이 있지만, 표본의 개수가 적은 경우에는 데이터를 산점도에 그려보아 확인하는 방법이 있습니다.

 

두 표본간의 차이가 있는지 Two-Sample t-Test를 진행하기에 앞서 분산이 동일한지 확인한 후, 평균이 동일한지 확인합니다. 우선 등분산 여부를 알아보기 위하여 다음 가설과 수식을 사용합니다.


이 F검정을 통하여 우선 두 표본의 분산이 동일한지 확인합니다. 그 이후에 동일한 분산과 동일하지 않은 분산을 가진 경우에 따라 나누어 t검정을 진행하게 됩니다.

 

1. 등분산의 경우

 


등분산의 경우에는 표준오차로 나누는 분모에 합동분산을 사용하게 됩니다. 합동분산이란 각 표본의 분산에 대한 가중평균을 구하는 개념이며, 식은 오른쪽의 공식입니다. 

분산의 동일한 여부에 따라 사용하는 자유도 역시 차이가 있습니다. 등분산인 경우 자유도는 다음과 같습니다.​


 

​2. 이분산의 경우


이분산의 경우에는 표준오차로 나누는 분모에 각각 표본의 분산을 활용한 공식임을 확인할 수 있습니다.

이분산일 때에 자유도는 다음과 같습니다.


 

 

SAS 코드로 해당 t-Test를 실행시키는 것은 위에서 설명한 바와 동일하며, CLASS 명령어를 통하여 두 표본을 설정할 수 있다는 차이점만 있습니다. 이 때, SAS 코드의 결과 중에서 Pooled (Variances Equal)과 Satterwhite (Variances Unequal)의 두 가지가 있습니다. 등분산일 경우 전자를, 이분산의 경우 후자의 결과를 확인하면 됩니다.

 

아래 예시는 실제 데이터를 TTEST 프로시져로 돌린 결과입니다. 현재 SIDES= 라는 옵션을 사용하고있지 않기 때문에 default값으로 양측검정방식을 채택하여 t-Test를 진행중임을 알 수 있습니다. 또한, class Gender; 라는 문장을 통하여 Gender 변수에 따라 Two-Sample t-Test를 실행시키게 됩니다. 결과의 일부분은 코드의 아래와 같습니다. Plots(shownull)=interval 이라는 조건은 Confidence Interval, 즉 신뢰구간의 Plot을 함께 출력하라는 의미입니다. 함께 쓰인 shownull은 null statement, 즉 귀무가설에 대한 값을 출력하라는 조건입니다.

 

 

 

우선, 아래 표인 'Equality of Variances'를 확인하면 F-value의 P값이 0.2545로, 0.05보다 크기 때문에 귀무가설이 채택됨을 알 수 있습니다. 즉, 현재 데이터는 등분산인 것으로 판단할 수 있습니다. 그 결과에 따라 위 표의 'Pooled Method, Equal Variances'를 살펴보면 t-Value 1.88, P값 0.0643입니다. 즉, P값이 0.05보다 크므로 귀무가설을 채택하게 되어, Gender로 나뉘어진 두 표본 사이에는 평균의 차이가 없다는 결론을 내릴 수 있습니다.

 

처음 프로시져를 실행시킬 때에 설정할 수 있는 조건들 중 하나는 단측 검정의 방향입니다. SIDES=U로 설정을 하면 왼쪽꼬리검정을, SIDES=L로 설정 하면 반대쪽 방향을 의미합니다. 또한 두 평균의 차이인 k값은 H0=k로 설정해줄 수 있습니다. 이의 default값은 k가 0인 h0=0입니다.

 

이번에는 단측검정을 진행한 예시를 알아보겠습니다.


plots(only shownull)=interval 이라는 조건문은 위에서 설명한 신뢰구간의 plot만을 출력하라는 의미입니다. Sides=U는 위에서 설명한 바와 같이 왼쪽꼬리검정을 진행하는 것입니다. 결과를 보시면, 우선 F검정 결과 귀무가설을 채택하므로 Gender를 바탕으로 나뉘어진 두 데이터가 등분산을 갖고 있다는 의미이며, 등분산임에 따라 'Pooled Method, Equal Variances'를 확인하면 P-value가 0.0321, 즉 귀무가설을 기각하게 됩니다. 즉, 첫 표본의 평균값이 두 번째 표본의 평균값보다 작다는 귀무가설은 근거가 부족하다는 결론을 얻을 수 있습니다.

 

 

 

 

 

이것으로 SAS Statistical Business Analysis 자격증 준비의 2번째 내용을 마무리하겠습니다.

 

감사합니다!!

 
 
    
최현준   [2017/10/17 3:37]
감사합니다.
 
 [SAS BA 자격증 준비] 3. ANOVA - 1
 [SAS BA 자격증 준비] 1. 기본 개념 리뷰