본문 바로가기
Statistics

[통계] 03 표본분포(Sampling distribution)

by Hyen4110 2021. 4. 19.
반응형

표본분포 기초 이론에 들어가기에 앞서,

어떻게, 왜 표본분포를 통해 모집단의 특성(모수)를 추정할 수 있는지 살펴보겠습니다.

 

1. [Why] 표본조사는 왜 하는가?

-> '전수조사의 대안, 표본조사'

어떤 집단의 평균값을 계산하는 가장 정확한 방법은, 전수조사를 해서 평균을 구하는 것입니다. 

하지만, 집단의 크기가 100만, 1000만이라면 과연 전수조사를 할 수 있을까요?

과다한 비용과 시간 때문에 불가능할 것입니다. 따라서 일부만 추출해서 전체를 추정하는 표본조사를 해야합니다. 

 

-> '표본조사의 불확실성'

: 하지만 과연 하나의 표본(sample)을 추출하여 모집단의 평균을 정확히 추정할수 있을까요? 사실은 불가능합니다.

 우연의 일치로 표본의 평균이 모집단의 평균과 같을 수 있지만, 언제나 우연이 따를 수없죠. 

 

: 또한, 이와 같이 표본과 모집단의 평균값 간의 차이가 발생할때 그 값을 표본오차(SE, Sampling Error)라고 합니다.

모집단과 표본의 평균과 분산의 차이, 표본오차(sampling error)

 

2. [How] 불확실한데, 어떻게 표본조사로 대체할 수 있나?

- 위에서 표본조사는 전수조사 결과와 오차(표본오차, Sampling Error(SE))가 늘 발생한다고 했습니다. 

  그런데 그래서 어떻게 표본조사로 대체하겠다는 걸까요?

 

2-1. 중심극한정리에 의하여 표본(평균)분포를 구할 수 있다. 

-> 중심극한정리가 왜 중요한지? 왜 표본조사로 전수조사를 대체할 수있는지 단계단계 가보겠습니다.

 

-> [step1]  '크기가 n인 표본들의 평균의 분포'인  표본평균분포를 가정 

    : "표본분포(sampling distribution)"

       -> 면밀히 말하면 표본평균분포(sampling distribution of sample mean)입니다.

           이해를 쉽게 돕기 위하여, 이후로도 표본평균분포로 부르겠습니다)

    : 크기가 n인 모든 조합의 표본을 만들었다고 가정합시다

      (예: 크기가 4인 모집단에서 크기가 2인 표본을 모두 추출할 경우의 수는 ₄C₂가 되겠죠!)

    이때 '중심극한정리'에 따라 표본평균분포의 평균과 분산을 알 수 있습니다. 아래 그림으로 함께 설명하겠습니다.

 

: 위에서 말씀드린  중심극한정리에 의하여 다음이 성립합니다.

    

1. 표본평균분포의 평균은 모집단의 평균(μ)과 같다.  

  --> E(x̅) = μ

 

 2. 표본평균분포의 분산은 모집단의 분산(σ)을

 n으로 나눈값과 같다

  --> V(x̅) = σ²/n

 

: 정규분포의 모수치는 평균(μ), 분산(σ)뿐이므로, 표본평균분포를 완벽한 하나의 정규분포로 정의한 것입니다! 

 

 

 

 

- [step2] '표본평균분포'를 안다'

  = '표본조사로 얻은 "표본 1"의 평균이 속한 분포를 알고있다'
 : 표본평균분포를 안다는 것이 그래서 뭐가 중요한데? 라는 의문점이 생길 수 있습니다. 

  중요한 것은 우리가 가진 표본1(의 평균)이 속한 분포를 파악했다는 것입니다. 

 : 표본평균분포의 평균과 분산을 모두 알고있다면,

   값 중 하나인 '표본 1'의 평균이 표본평균분포에서 어디쯤에 속해있는지 알 수 있겠죠.

   앞선 정규분포 파트에서 정규분포의 평균과 표준편차를 알면, 상위 몇%위치를 계산할 수 있었듯이 말입니다! 

[출처] Standard Normal Distribution Table (mathsisfun.com)

 

: 따라서, 모집단의 평균, 분산을 가지고 표본분포(sampling distribution)의 평균과 분산을 파악하고,  

  그 표본분포에서 샘플링한 표본값(평균)이 어떤 위치를 갖느냐(=표본분포의 평균과 얼마나 떨어져있느냐)로

  표본이 모집단과 얼마나 다른지 추정할수 있습니다

: 예를들어, 제품의 정량이 잘 지켜지고 있는지 표본조사로 확인하고 싶을때를 생각해봅시다.

 과거 콜라 양의 전수조사 결과 얻은 평균과 표준편차로 표본분포의 평균과 표준편차를 가정하고

  최근 얻은 표본이 표본분포 내에서 얼마나 평균과 멀리 위치하느냐에 따라

  콜라의 양에 불량이 생겼다, 또는 문제가 없다 여부를 판단할 수 있습니다.

  다른 표현으로는 그저 샘플링 오류인지, 정말 유의미한 차이인지를 판단할 수 있다고 할 수 있습니다.

 

: 지금까지의 설명을 정리하면, 모집단의 평균과 표준편차를 가지고 표본(평균)분포를 구하였고,

   표본조사를 얻은 표본의 평균이 그 표본(평균)분포에 속한다는 가정을 따라서

   표본(평균)분포에서 우리가 샘플링한 표본의 평균의 상대적인 위치를 알수있습니다. 

   즉, 표본(평균)분포의 평균, 즉 모평균이 표본의 평균과 얼마나 차이가있는지

   (유의미한 차이인지, 샘플링오류여서 무시해도되는지) 알 수 있습니다. 

 

2-2. 모집단의 표준편차를 알 수 없을 때 모평균 추정하기 

 - 지금까지 모집단의 평균과 표준편차를 가지고 표본(평균)분포를 얻어냈지만(중심극한 정리에 의하여), 

   현실에서 모집단의 평균과 표준편차를 아는 경우는 드뭅니다.

   모집단의 평균은 추정 문제에서 가정으로 주어지지만, 표준편차는 알 길이 없습니다. 

   모집단의 값(평균, 표준편차)으로 표본(평균)분포를 만들어서 일해야 하는데, 표준편차가 공백이 된 것이죠.

   -> 이런 경우, 표본(평균)분포를 새롭게 정의해야합니다! 

  

여태까지 우리가 조사한 표본i는 그저 주어진 표본평균분포에서 위치만 확인하기 위한 존재였는데

모분산을 알지못해 표본평균분포의 분산에 공백이 생기자, 이를 표본i의 분산에서 얻게된 것입니다.

 

  

 

 

반응형

댓글