본문 바로가기
Statistics

[통계] 02 정규분포(Normal distribution)

by Hyen4110 2021. 4. 19.

1. 정규분포란?

1) 정규분포의 정의

   : 확률분포 X가 아래와 같은 확률밀도함수 f(X)를 가질 때, X는 평균 μ 분산 σ²인 정규분포를 따른다.

2) 정규분포의 특성

  ① 정규분포는 여러 모양이 있으며, 서로 평균과 분산이 다를 수 있다.

  - [Question] 그럼 어떤 분포를 정규분포라고 할 수 있을까?

    (Answer) 확률밀도함수 f(X)의 넓이가 아래와 같은 특성을 보인다면, 각각 정규분포를 따른다고 할 수 있다

 

 ② 종모양(bell shaped), 대칭형(symmetrical around the mean)

 ③ 정규분포의 평균(Mean) = 중앙값(Median) = 최빈값(Mode) 

 ④ 정규분포의 확률 계산

⑤ 정규분포에 평균, 표준편차가 미치는 영향

  영향 구체적 설명
평균 수평(좌우) 이동 - 평균 증가 -> 정규분포 중심 오른쪽 이동
- 평균 감소 -> 정규분포 중심 왼쪽 이동
표준편차  폭 증가/감소 - 표준편차 증가 -> 정규분포 폭 넓어짐
- 표준편차 감소 -> 정규분포 폭 좁아짐

 

 

2. 표준정규분포 

1) 표준정규분포가 필요한 이유?

  '정규분포는 평균과 표준편차를 가지고 비교해야한다'

  : 정규분포는 여러 모양이 있고, 분포마다 평균과 표준편차가 서로 다를수 있습니다. 

    그럼 정규분포는 어디에 쓸 수 있나? 하는 생각이 듭니다!

    이때 기억해야할 정규분포의 특징 중 하나는 표준편차값과 평균을 알면,

    (평균으로부터 몇 표준편차만큼 왼쪽/오른쪽으로 떨어져있나를 확인하면)

    확률, (조금 쉽게 이야기하면) 분포상에 존재하는 값의 위치(상위/하위 몇%)를 알 수 있다는 겁니다.

[출처] https://www.spsstutorials.com/normal-distribution/

 

 '비교할 값을 찾았더라도, 확률 계산은 또 다른 귀찮음!'

  : 하지만 늘 계산할때마다, 평균과 표준편차를 비교하기 귀찮고,

   그래서 평균으로부터 몇 표준편차만큼 떨어져있는지 계산했다고 하더라도

   그 값이 상대적으로 몇 %의 위치에 있는지 계산하는것도 복잡합니다.

   

  옆에 보이는 그림과 같이,

  평균으로부터 ±n*표준편차 만큼 떨어져있는 것만 알 수있을 뿐이죠.. 

  하지만, 값이 딱 정수배(n)만큼만 떨어져 있는 경우는 거의 희박합니다!

 

 

 

 

 

 

 

 '확률을 찾기 쉽도록, 하나의 분포를 만들자'

 '그 분포의 값으로 바로 확률을 구하도록 table을 만들자!'

 : 모든 정규 분포를 하나의 기준이되는 분포로 매핑하고, 그 분포상에서 값을 쉽게 구할 수 있다면 정말 편하겠죠

  바로 그 분포가 '표준정규분포' 이고, 표준정규분포 상의 값을 Z점수(Z-score) 또는 표준화점수(Standard Score)라고 합니다. 

 

2) 표준정규분포란?

- 정규분포 밀도함수에서 X(원점수)를 Z(Z점수)로 정규화함으로써 평균이 0, 표준편차가 1인 표준정규분포를 얻을 수 있다. (위키피디아)

- 평균이 0 이고, 표준편차가 1인 정규분포이다

[출처] https://ko.wikipedia.org/wiki/%ED%91%9C%EC%A4%80_%EC%A0%90%EC%88%98

댓글