사이트맵  |  Contact Us
 
홈 > SAS Tech & Tip > SAS 자격증 준비
[SAS BA 자격증 준비] 1. 기본 개념 리뷰 2017.09.25
김서연 734 2
http://www.mysas.co.kr/SAS_tiptech/c_base.asp?b_no=7448&gotopage=1&con=subject&keyword=&cmd=content&bd_no=42&gubun=

안녕하세요!

이번주는 SAS Statistical Business Analyst 자격증 준비의 첫 단계로 기본 개념 리뷰를 먼저 시작하도록 하겠습니다.

 

 

 

추정

가설검정은 표본을 바탕으로 모집단에 대하여 추측하는 것입니다. 표본이란 모집단에서 뽑은 모집단의 일부를 의미하며, 주로 모집단의 성향을 포함할 것이라고 가정하고 있습니다. 표본의 평균으로 모집단의 평균을 추측하며, 동일하게 표본의 표준편차로 모집단의 표준편차를 추측하게 됩니다. 이 때, 점 추정은 모집단의 한 값을 추정하는 것이며, 구간 추정은 모집단의 어느 값이 포함될 구간을 추정하는 것입니다.

 

 

 

정규분포

정규분포, 또는 가우시안 분포(Gaussian Distribution)는 종 모양이자 좌우 대칭인 그래프를 갖고 있습니다. 정규분포의 식은 다음과 같습니다.

 

이 때, 표준정규분포란 평균이 0이며 표준편차가 1인 정규분포입니다.

 

 

 

표준오차

표준오차란 표본을 바탕으로 추측된 통계량 값에 얼마나 변화, 변동성이 존재하는지 알아보는 통계량입니다. 계산 방법은 표본표준편차를 표본의 개수의 제곱근으로 나누는 것입니다.

 

 

 

 

신뢰구간 (Confidence Intervals)

'95% 신뢰구간'은 실제 모집단의 평균이 해당 구간 내에 있을 확률이 95%에 해당함을 의미하는 구간입니다. 즉, 만약 100번의 표본집단을 뽑아 각 집단에서 신뢰구간을 구해본다면, 총 95개의 신뢰구간은 실제 모집단의 평균을 포함할 것이라는 의미입니다. '95%'라는 수치는 유의수준 (Significance Level), 즉 어느 정도의 정확성을 원하는지의 수치이며, 이를 먼저 설정한 후 신뢰구간을 구해야합니다. 만약 유의수준을 100%로 설정한다면 어느 신뢰구간을 구하더라도 모집단의 평균이 포함되어야 함을 의미하므로, +무한대 ~ -무한대까지 모든 값이 신뢰구간으로 구해집니다.

 

 

 

가설검정

가설검정은 말 그대로 가설을 설정하여 확인하고, 그 가설이 참인지 거짓인지 확인하는 과정입니다. 주로 모집단에 대한 가설을 설정한 후, 모집단에서 표본을 뽑아내어 그 표본으로 확인하는 과정을 거치게 됩니다. 이 때, 귀무 가설(H0)이란 기존 모집단의 성질을 보여주며, 대립 가설(Ha)이란 실험자가 새롭게 주장하려는 가설입니다. 귀무 가설의 기각 여부는 p-value에 따라 결정됩니다. P-value가 너무 낮을 경우에는 귀무 가설을 의심, 즉 기각하게 되며, 반대로 높은 p-value값을 얻게 되면 귀무 가설을 받아들이게 도비니다.

알파 레벨(Alpha Level)이란, 귀무가설이 사실인데 이를 기각할 확률을 의미합니다.

 

 

즉, Type I Error는 귀무가설이 사실인데 이를 기각할 확률이며, Type II Error는 귀무가설이 거짓인데 이를 채택할 확률을 의미합니다. 가설검정의 유의 수준이 바로 알파 레벨, 즉 Type I Error의 값입니다.

 

 

 

 

Association (연관성)

한 변수가 변할 때에 다른 변수의 값들도 함께 변화되면, 둘 사이에는 '연관성'이 존재한다고 합니다. 두 변수 간의 선형 관계에 놓인 연관성을 한 눈에 알아보기 위해서는 주로 산점도(Scatter Plot)를 활용합니다. 산점도란 말 그대로 좌표 위에 데이터를 점으로 표시하는 것을 의미합니다.

 

 

이 산점도를 통하여 사람들은 위에서 설명한 것과 같이 두 변수(X, Y)간의 연관성을 알아보거나, 두 변수의 연관성에서 크게 벗어나는 이상치가 존재하는지 등을 알아봅니다.

다음 예시들을 통하여 산점도가 그려지는 모양에 따른 분석 방법을 알아보겠습니다.

 

 

위 경우에는 산점도의 X축 변수와 Y축 변수가 선형, 또는 비선형의 관계에 놓여있다고 말할 수 있습니다. 즉, 두 변수가 서로 연관성을 갖고 있다는 의미입니다.

 

 

이 경우에는 주기적인 모습을 보이고 있습니다. 주로 시간에 대한 데이터를 다룰 때 나타나는 모습입니다.

 

 

두 변수 간에 아무런 연관성이 없기 때문에 산점도에서도 경향성을 볼 수 없습니다.

현재까지 살펴본 산점도들은 모두 연속적인 값을 갖고 있는 변수들끼리의 산점도입니다. 만약 한 변수가 범주형 데이터를 담고 있다면, 산점도는 전체적으로 퍼진 것이 아닌, 해당 범주에 수직적으로 퍼져있게 됩니다.

 

 

 

 

Pearson Correlation (피어슨 상관계수)

두 변수가 선형 관계에 놓여있을 때 사용되는 통계량입니다. 다음과 같은 수식으로 계산됩니다.

 

 

위에 적힌 공식은 모집단의 상관계수이고, 아래의 공식은 표본상관계수입니다. 이 값은 -1과 1 사이이며, 1에 가까운 숫자일수록 강한 긍정, -1에 가까울수록 강한 부정의 선형 관계에 놓여있습니다. 만약 피어슨 상관계수가 0에 가깝다면, 이는 아무런 상관관계에 놓여있지 않음을 의미합니다.

상관계수를 알아보는 SAS의 프로시져는 다음과 같습니다.

 

PROC CORR data = SAS-data-set;

     VAR variables;

     WITH variables;

     ID variables;

RUN;

 

 

 

이것으로 [SAS Statistical Business Analysis 자격증 준비]의 첫 번째 내용을 마무리하도록 하겠습니다.

감사합니다! :)

 

 

 
 
    
최현준   [2017/09/25 3:03]
ㄳㄳ
휴대폰 번호
휴대폰 인증번호
 
 [SAS BA 자격증 준비] 2. One-Sample & Two-Sample t-Tests
 [SAS Statistical Business Analyst 자격증 준비] Prologue