01 중심경향치(Central Tendency)
- 중심경향치(Central tendency)는 통계학 및 수학에서 자료 데이터 분포의 중심을 보여주는 값으로서 자료 전체를 대표할 수 있는 값을 이르는 말이다. 대표값이라도 한다 (출처: 위키피디아)
- 대표적인 중심경향치: 산술평균(mean), 중앙값(median), 최빈값(mode)
1. 최빈값(mode)
- 가장 큰 빈도수를 가진 관측치
- 계산(computation)이 아닌 세기(counting)으로 계산할 수 있음.
- 주로 범주형 데이터에서 사용된다(most common category)
- 하나의 최빈값을 가질때 unimodal, 2개의 최빈값을 가질 때 bimodal이라고 한다.
2. 중앙값(median)
- 어떤 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값을 의미(위키피디아)
- 중앙값을 구하는 방법
1) 데이터가 홀수 개 일 때 : 중앙에 위치한 값
2) 데이터가 짝수 개 일 때 : 중앙에 위치한 두 수의 평균
3. 평균(mean)
- 분포의 산술평균(arithmetic average)
- 평균을 구하는 방법 : 값의 합을 전체 값의 개수로 나눈다.
*평균(mean)과 중앙값(median)
- 데이터의 분포가 한 쪽으로 쏠려있을 경우, 평균보다 중앙값이 더 중심경향을 잘 보여준다
- right-skewed(positively skewed) 분포에서는 중앙값보다 평균이 더 크다(Median<Mean)
skewed 방향 | shape |
right-skewed (positive skewness) |
꼬리가 오른쪽으로 길게 대부분의 데이터가 왼쪽에 분포 |
left-skewed (negative skewness) |
꼬리가 왼쪽으로 길게 대부분의 데이터가 오른쪽에 분포 |
*평균(mean)과 이상치(outlier)
: 평균은 극단값에 의하여 영향을 많이 받는다.
*변수의 유형에 따른 최적의 중심경향치(central tendency)
변수의 유형 | Best | |
범주형 | 명목척도(Nominal) | Mode |
서열척도(Ordinal) | Median | |
수치형 등간척도(Interval), 비율척도(Ratio) |
not skewed | Mean |
skewed | Median |
02 분산(Variation)
- 분산(Variation)이란, 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다.
(출처: 위키피디아)
1. 분산을 측정하는 방법
1) Range
- 구하는 법 : (최대값 - 최소값)+1
장점 | 계산하기 쉽다. |
단점 | ① 극단값의 영향을 잘 받는다. ② 다른 크기의 집단의 분포간에는 비교가 어렵다. |
2) mean deviation
- 구하는 법
- 특징 : 합계는 항상 0이다. 따라서 평균편차는 절대로 사용되지 않는다(never used!!)
-> 그렇다면, 절대값을 씌워주면 어떨까? => '평균절대편차(Average absolute deviation)'
-> 그렇다면, 제곱을 해주면 어떨까? => '분산(Variance)'
=> "제일 쓸모있는 분산을 Pick하겠다"
3) variance
- 구하는 법:
03 자유도(Degree of freedom)
- 자유도(degree of freedom)란, 통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수
(출처: 위키피디아)
- 주어진 조건하에서 자유롭게 변화할 수 있는 값
[Question] 자유도를 왜 n-1로 나누나요?
(Answer1) 원래 자유도는 n이지만, 평균값이 주어지면서, 1의 자유도를 잃음!
: 예를들어 3개의 숫자, 2,3,4가 있다고 할때,
전체 합계는 9, 평균은 3이다. 3개의 숫자 중 하나를 모르더라도,
나머지 숫자 2개와 평균으로 마지막 숫자를 알 수있다.
(Answer2) (표본분산으로 모분산 추정시) 표본분산이 모분산보다 과소평가되는 것을 보정하기 위해서
: 표본값을 통해 모집단의 값을 추정할때,
모평균-표본평균, 모분산-표본분산을 잘 추정하나 살펴보았는데,
표본평균으로는 모평균을 비교적 잘 추정하지만( "E(x̅) 는 μ다!(good job!)")
표본분산으로는 모분산을 잘 추정하지 못했다
표본분산을 추정할때, n을 n-1로 바꿔서 해보니! 모분산에 근사했다!
그래서 n을 n-1로 계산하게 되었다!
04 표준화 점수(Standard Scores)
- 서로 다른 분포를 가지고있는 값을 비교할때, 표준화 점수를 사용한다
- 표준화점수(Standard score) = Z score
- 표준화점수의 의미
: "평균을 중심으로 몇 standard deviation(표준편차) 만큼 떨어져 있는가?" 를 의미한다.
: 음수값을 가진다면, 평균보다 아래에 있다
: 0을 갖는다면, 평균이다.
'Statistics' 카테고리의 다른 글
[통계] 카이제곱 검정(Chi-squre test) (1) | 2021.04.27 |
---|---|
[통계] 05 두 집단 비교에 대한 추론 (0) | 2021.04.23 |
[통계] 04 가설검정_1, 2종 오류와 유의수준 (0) | 2021.04.19 |
[통계] 03 표본분포(Sampling distribution) (0) | 2021.04.19 |
[통계] 02 정규분포(Normal distribution) (0) | 2021.04.19 |
댓글