로그인   |  회원가입  |  사이트맵  |  Contact Us
  아이디 저장하기
 
홈 > SAS Tech & Tip > SAS 자격증 준비
[SAS BA 자격증 준비] 3. ANOVA - 1 2017.10.13
김서연 178 2
http://www.mysas.co.kr/SAS_tiptech/c_base.asp?b_no=7478&gotopage=1&con=subject&keyword=&cmd=content&bd_no=42&gubun=

안녕하세요!

 

이번에는 ANOVA의 첫 시간으로 One-Way ANOVA에 대하여 알아보겠습니다. :)

 

 

 

 

ANOVA (Analysis of Variance)

ANOVA는 Analysis Of Variance의 줄임말로, 둘 이상의 그룹에 서로 차이가 있는지 알아보기 위한 통계적 기법입니다. 이 때, 반응 변수는 연속형이며, 예측 변수는 이산형 값을 사용하게 됩니다. 이전에 배운 t-test는 두 가지 표본집단에 대한 차이를 알아보기 위하여 활용한 통계적 기법이었다면, ANOVA는 여러 개의 표본 사이의 차이를 알아보는 방식입니다. 지금까지 배운 바로는, 3개 이상의 표본집단에 차이가 있는지 알아보고자 할 때 A-B그룹, A-C그룹, B-C그룹 총 3번의 t-test를 실행하면서 비교해야합니다. 하지만, ANOVA로는 A, B, C 세 그룹간에 차이가 있는지 한번에 알아볼 수 있습니다.

 

본격적으로 알아보기 이전에, ANOVA의 3가지 가정 사항에 대하여 알아보겠습니다. 모든 관측치들은 독립이며, 뒤에서 알아볼 모형에 포함되어있는 각 데이터의 에러값은 정규분포를 따른다고 가정하고 있습니다. 또한, 각 표본 그룹의 에러 값들은 동일한 분산을 갖게 됩니다.

 

이를 바탕으로 한 귀무가설과 대립가설은 다음과 같습니다.


 

ANOVA는 각 표본집단 별 차이를 알아보기 위하여 다음과 같은 아이디어에서 시작합니다.

 

  • SST는 Total Sum of Squares를 의미합니다. 즉, 전체 관측값들의 분산을 알아보는 것입니다. 각 관측치 값에서 전체 평균을 뺀 것의 제곱합을 계산합니다.
  • SSM은 Model Sum of Squares입니다. 각 표본집단 의 분산을 계산하는 값입니다. 각 집단의 평균에서 전체 평균을 뺀 것의 제곱합을 구하면 됩니다.
  • SSE는 Error Sum of Squares입니다. 각 표본집단 의 분산을 계산하는 값으로, 관측치 값에서 해당하는 표본의 평균을 뺀 것의 제곱합입니다.

 

 

ANOVA의 자유도 값과 Mean Swaure 값은 다음 표로 더욱 자세히 알아보도록 하겠습니다.


 

Mean Square Error (MSE), Mean Square for the Model (MSM)은 각각 SSE, SSM을 자유도 값으로 나눠준 것입니다. 또한, ANOVA의 p값을 구하는데 사용되는 F-value는 MSM을 MSE로 나누어주면 됩니다. 이렇게 구해진 F-value로 p-value를 구하여, ANOVA의 귀무가설을 기각할지 채택할지 결정합니다.

 

R​2는 Coefficient of Determination, 또는 결정계수라고도 불리는 0과 1사이의 통계량으로, 현재의 표본으로 만들어진 모형이 실제 데이터를 얼마나 잘 설명하는지 나타내는 값입니다.


이 때, R​2값이 1에 가까울수록 현재 모형이 주어진 데이터를 잘 설명해주고 있다는 의미이며, ​0에 가까우면 크게 설명하지 못함을 의미합니다.

 

ANOVA의 모델은 다음과 같이 계산됩니다. 이는 각각의 데이터 값에 대한 모델입니다.

 

  • ​Y​ik​는 전체 표본 데이터를 행렬 형식으로 표현하였을 때, i번째 행, k번째 열에 해당하는 데이터 값입니다.
  • μ는 전체 평균이며, τ​i​는 한 표본의 평균과 전체 평균 간의 차이입니다. 즉, μ + τ​i​의 식은 해당 표본의 평균을 표현하는 식입니다.
  • ε​ik는 에러값으로, 각 데이터와 그 데이터가 포함된 표본의 평균 사이의 차이를 의미합니다.

 

 

 

이러한 ANOVA를 SAS로 실행시키기 위한 코드는 다음과 같습니다.

PROC GLM Data = SAS-data-set PLOTS = options;

CLASS variables;

MODEL dependents = independents ;

MEANS effects ;

LSMEANS effects ;

OUTPUT OUT = SAS-data-set keyword = variable;

RUN;

QUIT;

해당 코드는 원래 이후에 배울 회귀분석을 위한 코드입니다. 이 코드를 돌릴 경우에도 ANOVA의 결과가 출력됩니다.

MODEL 명령어는 독립변수와 종속변수를 미리 설정하는 명령어입니다. MEANS는 종속변수에 대하여 설정한 effect를 실행시키라는 의미입니다. 특히, MEANS문 이후에 hovtest라는 조건을 사용할 경우, ANOVA의 기본 가정 중 하나였던 등분산성을 검정하게 됩니다.



 

첫 번째 도표는 MEANS문의 hovtest 조건에 의하여 등장한 등분산성 검정 결과입니다. P-value가 0.4173이기 때문에 표본들의 분산이 동일하다는 귀무가설을 채택합니다. 다음 실제 ANOVA의 결과는 P-value가 0.1432입니다. 이 역시 0.05보다 크기 때문에, ANOVA의 귀무가설을 채택하게 되어 현재 예시의 각 표본의 평균 역시 차이가 없다는 결론을 얻을 수 있습니다.

 

 

 

 

ANOVA Post Hoc Tests (사후검정)

ANOVA 실행 후 귀무가설을 기각하였을 때, 즉 분산분석의 결과가 유의할 때 사용하는 여러 방법들입니다.

 

1. Pairwise t-Tests  /  Comparisonwise Error Rate (CER)을 조절​하는 방식

 

LSMEANS / PDIFF = ALL ADJUST = T

위의 조건을 LSMEANS문에 추가하게 되면, Pairwise t-Test를 실행시킵니다. 즉, Comparisonwise Error Rate인 알파값을 조절하는 부분입니다.

 

2. Compare All Pairs Turkey  /  Experimentwise Error Rate (EER)을 조절하는 방식

LSMEANS / PDIFF = ALL ADJUST = TUKEY

Tukey's HSD (Honest Significant Difference) Test라 불리우는 해당 조건을 추가하게 되면 가능한 모든 경우를 비교합니다. 모든 경우를 비교할 때에는 EER값이 알파값과 동일해지며, 몇몇만 비교할 경우 EER값이 알파값보다 작습니다.

PDIFF = ALL이라는 조건을 추가하면 자동으로 출력되는 다음 그래프는 Diffogram입니다.


해당 그림에 의하면, 파란색이 유의함을 의미하기 때문에 1번과 4번만 유의한 차이를 갖고 있음을 알 수 있습니다. 나머지 경우의 수들은 모두 빨간색으로 표시되어 있어 유의하지 않음을 의미합니다. 각 점을 기준으로 생긴 선들은 해당 경우의 수의 신뢰구간을 표시한 것입니다.

 

3. Compare to Control Dunnett  /  Experimentwise Error Rate (EER)을 조절하는 방식​

 

LSMEANS / PDIFF = CONTROL('control level') ADJUST = DUNNETT

위 조건의 'control level'은 단측검정의 여부를 넣어주는 조건입니다. (lower-tail test : L, upper-tail test : U)

PDIFF = CONTROL, 또는 ADJUST = DUNNETT을 LSMEANS의 조건으로 설정하면 다음 Control Plot이 출력됩니다.


파란색으로 색칠되어 있는 구간은 Upper Decision Limit과 Lower Decision Limit으로 둘러싸인 구간입니다. 이 구간을 넘어서 선이 그어져 있는 경우 (위 그림의 Fertilizer 1의 경우), 해당 그룹은 컨트롤 그룹과는 유의하게 다름을 의미합니다.

 

 

 

 

 

 

이것으로 SAS Statistical Business Analysis 자격증 준비의 3번째 내용을 마무리하겠습니다.

 

감사합니다! :)

 
 
    
최현준   [2017/10/17 3:38]
오오
 
 [SAS BA 자격증 준비] 4. ANOVA - 2
 [SAS BA 자격증 준비] 2. One-Sample & Two-Sample t-Tests