[통계] 01 분포를 어떻게 설명하는가?

01 중심경향치(Central Tendency)

- 중심경향치(Central tendency)는 통계학 및 수학에서 자료 데이터 분포의 중심을 보여주는 값으로서 자료 전체를 대표할 수 있는 값을 이르는 말이다. 대표값이라도 한다 (출처: 위키피디아)

- 대표적인 중심경향치: 산술평균(mean), 중앙값(median), 최빈값(mode)

1. 최빈값(mode)

- 가장 큰 빈도수를 가진 관측치

- 계산(computation)이 아닌 세기(counting)으로 계산할 수 있음.

- 주로 범주형 데이터에서 사용된다(most common category)

- 하나의 최빈값을 가질때 unimodal, 2개의 최빈값을 가질 때 bimodal이라고 한다.

https://en.wikipedia.org/wiki/Unimodality

2. 중앙값(median)

- 어떤 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값을 의미(위키피디아)

- 중앙값을 구하는 방법

1) 데이터가 홀수 개 일 때 : 중앙에 위치한 값

2) 데이터가 짝수 개 일 때 : 중앙에 위치한 두 수의 평균

3. 평균(mean)

- 분포의 산술평균(arithmetic average)

- 평균을 구하는 방법 : 값의 합을 전체 값의 개수로 나눈다.

*평균(mean)과 중앙값(median)

- 데이터의 분포가 한 쪽으로 쏠려있을 경우, 평균보다 중앙값이 더 중심경향을 잘 보여준다

- right-skewed(positively skewed) 분포에서는 중앙값보다 평균이 더 크다(Median<Mean)

skewed 방향	shape
right-skewed (positive skewness)	꼬리가 오른쪽으로 길게 대부분의 데이터가 왼쪽에 분포
left-skewed (negative skewness)	꼬리가 왼쪽으로 길게 대부분의 데이터가 오른쪽에 분포

*평균(mean)과 이상치(outlier)

: 평균은 극단값에 의하여 영향을 많이 받는다.

*변수의 유형에 따른 최적의 중심경향치(central tendency)

변수의 유형		Best
범주형	명목척도(Nominal)	Mode
범주형	서열척도(Ordinal)	Median
수치형 등간척도(Interval), 비율척도(Ratio)	not skewed	Mean
수치형 등간척도(Interval), 비율척도(Ratio)	skewed	Median

02 분산(Variation)

- 분산(Variation)이란, 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다.

(출처: 위키피디아)

1. 분산을 측정하는 방법

1) Range

- 구하는 법 : (최대값 - 최소값)+1

장점	계산하기 쉽다.
단점	① 극단값의 영향을 잘 받는다. ② 다른 크기의 집단의 분포간에는 비교가 어렵다. (큰 집단일수록 range 더 큰 경향이 있기 때문)

2) mean deviation

- 구하는 법

- 특징 : 합계는 항상 0이다. 따라서 평균편차는 절대로 사용되지 않는다(never used!!)

-> 그렇다면, 절대값을 씌워주면 어떨까? => '평균절대편차(Average absolute deviation)'

-> 그렇다면, 제곱을 해주면 어떨까? => '분산(Variance)'

=> "제일 쓸모있는 분산을 Pick하겠다"

3) variance

- 구하는 법:

03 자유도(Degree of freedom)

- 자유도(degree of freedom)란, 통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수

(출처: 위키피디아)

- 주어진 조건하에서 자유롭게 변화할 수 있는 값

[Question] 자유도를 왜 n-1로 나누나요?

(Answer1) 원래 자유도는 n이지만, 평균값이 주어지면서, 1의 자유도를 잃음!

: 예를들어 3개의 숫자, 2,3,4가 있다고 할때,

전체 합계는 9, 평균은 3이다. 3개의 숫자 중 하나를 모르더라도,

나머지 숫자 2개와 평균으로 마지막 숫자를 알 수있다.

(Answer2) (표본분산으로 모분산 추정시) 표본분산이 모분산보다 과소평가되는 것을 보정하기 위해서

: 표본값을 통해 모집단의 값을 추정할때,

모평균-표본평균, 모분산-표본분산을 잘 추정하나 살펴보았는데,

표본평균으로는 모평균을 비교적 잘 추정하지만( "E(x̅) 는 μ다!(good job!)")

표본분산으로는 모분산을 잘 추정하지 못했다

표본분산을 추정할때, n을 n-1로 바꿔서 해보니! 모분산에 근사했다!

그래서 n을 n-1로 계산하게 되었다!

04 표준화 점수(Standard Scores)

- 서로 다른 분포를 가지고있는 값을 비교할때, 표준화 점수를 사용한다

- 표준화점수(Standard score) = Z score

- 표준화점수의 의미

: "평균을 중심으로 몇 standard deviation(표준편차) 만큼 떨어져 있는가?" 를 의미한다.

: 음수값을 가진다면, 평균보다 아래에 있다

: 0을 갖는다면, 평균이다.

'Statistics' 카테고리의 다른 글

[통계] 카이제곱 검정(Chi-squre test) (1)	2021.04.27
[통계] 05 두 집단 비교에 대한 추론 (0)	2021.04.23
[통계] 04 가설검정_1, 2종 오류와 유의수준 (0)	2021.04.19
[통계] 03 표본분포(Sampling distribution) (0)	2021.04.19
[통계] 02 정규분포(Normal distribution) (0)	2021.04.19

Hyen4110

[통계] 01 분포를 어떻게 설명하는가?

01 중심경향치(Central Tendency)

02 분산(Variation)

03 자유도(Degree of freedom)

04 표준화 점수(Standard Scores)

'Statistics' 카테고리의 다른 글

댓글

티스토리툴바

[통계] 01 분포를 어떻게 설명하는가?

01 중심경향치(Central Tendency)

02 분산(Variation)

03 자유도(Degree of freedom)

04 표준화 점수(Standard Scores)

'Statistics' 카테고리의 다른 글

관련글

댓글

티스토리툴바