로그인   |  회원가입  |  사이트맵  |  Contact Us
  아이디 저장하기
 
홈 > SAS Tech & Tip > SAS 자격증 준비
[SAS BA 자격증 준비] 5. Regression 2017.10.28
김서연 315 1
http://www.mysas.co.kr/SAS_tiptech/c_base.asp?b_no=7502&gotopage=1&con=subject&keyword=&cmd=content&bd_no=42&gubun=

안녕하세요!

 

이번주에는 회귀분석에 대하여 알아보겠습니다!!




 

 

Simple Linear Regression

단순회귀분석이란, 독립변수와 종속변수를 이용하여 모집단 내에서의 각 변수간의 관계를 설명하는 식을 얻어내는 것입니다. , 두 변수간의 선형 관계를 알아보고 분석하는 방식입니다. 기본적인 수식은 다음과 같습니다.

  

현재 저희가 배우는 Simple Linear Regression, 즉 단순회귀분석은 독립변수가 한 개인 회귀분석입니다. 회귀분석의 수식은 저희가 흔히 아는 1차식과 동일하게 이해할 수 있습니다. , x​i가 한단위 증가할 때 마다 y​i는 ​β​1에 해당하는 만큼 증가하는 것입니다.

 

  • ​y​i는 종속변수, x​i는 독립변수에 해당합니다.
  • β​0y절편, β​1은 기울기입니다.
  • ε​iβ​0 β​1x​1로설명할 수 없는 부분을 채워줍니다.

 

이러한 β​0​과 β​1을 얻는 방법은 최소자승법입니다. , 실제 y​i값과 예측된 y​i값 사이의 오차를 최소화하는 단순회귀식을 얻어내는 방식입니다. 구체적인 수학적 식은 생략하겠습니다.

 

회귀분석에 대한 귀무가설과 대립가설은 다음과 같습니다. 귀무가설은 저희가 구할 단순회귀분석 모델이 baseline model, 즉 기울기가 0인 모델보다 데이터를 잘 설명해주지 못한다는 가설입니다.

 

, 저희가 구한 단순회귀분석의 식이 데이터를 더욱 잘 설명한다는 충분한 근거를 얻으면, 기울기가 0이 아닌 식으로도 설명이 가능하므로 귀무가설을 기각하게 됩니다.

 

단순회귀분석의 가정은 다음과 같습니다.

지난주까지 배운 ANOVA에서 알아본 바와 동일하게 독립성, 에러의 정규화, 등분산성을 가집니다.

마지막 한 가지 가정은 같은 그래프로 설명 가능합니다.

 

, 종속변수의 평균은 독립변수의 값과 선형관계라는 의미입니다. 각 독립변수에서의 종속변수 값의 평균을 연결해보면 선형관계에 놓여있게 됩니다.

 

이러한 단순회귀분석의 SAS코드는 다음과 같습니다.

 

PROC REG DATA = SAS-data-set;

          MODEL dependent(s) = regressor(s);

RUN;

QUIT;

 

실제 코드를 돌려본 예시입니다.

 

1. 결과의 첫 표는 ANOVA 결과입니다. 이는 위에서 설명한 단순회귀분석의 귀무가설을 검정하기 위한 ANOVA입니다. 현재 P-value 0.0001보다 작으므로 귀무가설을 기각할 충분한 근거가 있다고 판단할 수 있습니다. , 저희가 구할 단순회귀직선이 데이터를 더 잘 설명해준다는 것입니다.

2. 두번째 표에서 Coeff Var는 Coefficient of Variation, 변동계수, 분산을 표준화한 통계량입니다. 다음 수식으로 계산됩니다.

 

3. 두 번째 표의 R-SquareSSM / SST로 계산되며, 0 1사이의 값으로 현재 데이터가 전체를 어느 정도 설명해주는지 나타내는 값입니다. 지금 모델은 0.0642, 6.42%만 설명해주고 있음을 알 수 있습니다.

4. 두 번째 표의 Adj R-SqAdjusted R-Square, 즉 수정결정계수로 R-Square의 단점을 보완한 것입니다. R-Square는 모수의 개수가 많아질수록 증가하기 때문에 보완하고자 사용하는 값입니다.

 

 

 

 

 

 

 

Multiple Regression

이번에는 다중회귀분석에 대하여 알아보겠습니다. 단순회귀분석은 독립변수가 하나였다면, 이번에는 여러 개의 독립변수를 갖고 있는 경우에 해당합니다. 모델은 다음과 같습니다.

 

단순회귀분석에서의 식과 동일하지만, 각 독립변수가 x​1, x​2, … 의 형태로 들어감을 알 수 있습니다.

이에 대한 귀무가설 역시 단순회귀분석과 유사합니다.

 

다중회귀분석이 더 많은 변수들을 바탕으로 분석하기 때문에 독립변수와 종속변수간의 관계를 알아내는데 더 쉬울 수도 있습니다. 하지만, 이러한 장점만 존재하는 것은 아닙니다. 최선의 모델은 무엇인지, 그리고 그 모델을 분석하는데 단순회귀분석보다 훨씬 까다롭다는 큰 단점을 갖고 있습니다.

 

단순회귀분석에서 SAS로 돌린 예제에 하나의 독립변수를 추가하여 다중회귀분석을 돌린 예시는 다음과 같습니다.

 

Basement_Area변수가 하나 추가되어 R-Square, Adjusted R-Sqaure도 많이 높아진 것을 확인할 수 있습니다. 또한, Parameter Estimates 표에서 Lot_Area의 변수가 높은 P-value를 갖게된 것을 알 수 있습니다. SalePrice라는 종속변수를 설명하는데에는 Basement_Area변수가 더 많은 영향을 끼쳤다고 이해할 수 있습니다.





 

이렇게 5번째 Regression에 대한 이야기를 마무리하겠습니다.


감사합니다! :)

 

 
 
    
 
 [SAS BA 자격증 준비] 6. 모델 선택
 [SAS BA 자격증 준비] 4. ANOVA - 2