본문 바로가기
Statistics

[통계] 01 분포를 어떻게 설명하는가?

by Hyen4110 2021. 4. 19.

01 중심경향치(Central Tendency)

- 중심경향치(Central tendency)는 통계학 및 수학에서 자료 데이터 분포의 중심을 보여주는 값으로서 자료 전체를 대표할 수 있는 값을 이르는 말이다. 대표값이라도 한다 (출처: 위키피디아)

-  대표적인 중심경향치: 산술평균(mean), 중앙값(median), 최빈값(mode)

 

1. 최빈값(mode)

- 가장 큰 빈도수를 가진 관측치

- 계산(computation)이 아닌 세기(counting)으로 계산할 수 있음.

- 주로 범주형 데이터에서 사용된다(most common category)

- 하나의 최빈값을 가질때 unimodal, 2개의 최빈값을 가질 때 bimodal이라고 한다.

https://en.wikipedia.org/wiki/Unimodality

 

2. 중앙값(median)

- 어떤 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값을 의미(위키피디아)

- 중앙값을 구하는 방법

   1) 데이터가 홀수 개 일 때 : 중앙에 위치한 값 

   2) 데이터가 짝수 개 일 때 : 중앙에 위치한 두 수의 평균

 

3. 평균(mean) 

- 분포의 산술평균(arithmetic average)

- 평균을 구하는 방법 : 값의 합을 전체 값의 개수로 나눈다.

 

*평균(mean)과 중앙값(median)

- 데이터의 분포가 한 쪽으로 쏠려있을 경우, 평균보다 중앙값이 더 중심경향을 잘 보여준다

- right-skewed(positively skewed) 분포에서는 중앙값보다 평균이 더 크다(Median<Mean)

 

right-skewed data

skewed 방향 shape
right-skewed
(positive skewness)
꼬리가 오른쪽으로 길게
대부분의 데이터가 왼쪽에 분포
left-skewed
(negative skewness)
꼬리가 왼쪽으로 길게
대부분의 데이터가 오른쪽에 분포

 

*평균(mean)과 이상치(outlier)

: 평균은 극단값에 의하여 영향을 많이 받는다.

 

*변수의 유형에 따른 최적의 중심경향치(central tendency)

변수의 유형 Best 
범주형 명목척도(Nominal) Mode
서열척도(Ordinal) Median
수치형
등간척도(Interval),
비율척도(Ratio)
not skewed Mean
skewed Median

 

02 분산(Variation)

- 분산(Variation)이란, 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다.

  (출처: 위키피디아)

 

1. 분산을 측정하는 방법

  1) Range

     - 구하는 법 : (최대값 - 최소값)+1

장점 계산하기 쉽다.
단점 ① 극단값의 영향을 잘 받는다.

② 다른 크기의 집단의 분포간에는 비교가 어렵다. 
    (큰 집단일수록 range 더 큰 경향이 있기 때문)

                       

  2) mean deviation

  - 구하는 법  

 

    

 

 

 

- 특징 : 합계는 항상 0이다. 따라서 평균편차는 절대로 사용되지 않는다(never used!!)

      -> 그렇다면, 절대값을 씌워주면 어떨까? => '평균절대편차(Average absolute deviation)'

      -> 그렇다면, 제곱을 해주면 어떨까? => '분산(Variance)'

 

     => "제일 쓸모있는 분산을 Pick하겠다"

 

 

  3) variance

    - 구하는 법:

 

 

03 자유도(Degree of freedom)

- 자유도(degree of freedom)란, 통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수

  (출처: 위키피디아)

- 주어진 조건하에서 자유롭게 변화할 수 있는 값 

 

[Question] 자유도를 왜 n-1로 나누나요?

 (Answer1) 원래 자유도는 n이지만, 평균값이 주어지면서, 1의 자유도를 잃음!

              : 예를들어 3개의 숫자, 2,3,4가 있다고 할때,

                전체 합계는 9, 평균은 3이다. 3개의 숫자 중 하나를 모르더라도,

                나머지 숫자 2개와 평균으로 마지막 숫자를 알 수있다. 

 

(Answer2) (표본분산으로 모분산 추정시) 표본분산이 모분산보다 과소평가되는 것을 보정하기 위해서

             : 표본값을 통해 모집단의 값을 추정할때,

              모평균-표본평균, 모분산-표본분산을 잘 추정하나 살펴보았는데,

              표본평균으로는 모평균을 비교적 잘 추정하지만( "E(x̅) 는 μ다!(good job!)")

              표본분산으로는 모분산을 잘 추정하지 못했다 

              표본분산을 추정할때, n을 n-1로 바꿔서 해보니! 모분산에 근사했다!

              그래서 n을 n-1로 계산하게 되었다!

 

 

04 표준화 점수(Standard Scores)

- 서로 다른 분포를 가지고있는 값을 비교할때, 표준화 점수를 사용한다

- 표준화점수(Standard score) = Z score

- 표준화점수의 의미

   : "평균을 중심으로 몇 standard deviation(표준편차) 만큼 떨어져 있는가?" 를 의미한다.

   : 음수값을 가진다면, 평균보다 아래에 있다

   : 0을 갖는다면, 평균이다.

댓글