Statistics12 [통계] 분산분석(ANOVA) 1.분산분석이란? - 분산 분석(Analysis of variance, ANOVA, 또는 변량 분석)은 통계학에서 두 개 이상 다수의 집단을 서로 비교하고자 할 때 집단 내의 분산, 총평균 그리고 각 집단의 평균의 차이에 의해 생긴 집단 간 분산의 비교를 통해 만들어진 F분포를 이용하여 가설검정을 하는 방법입니다(출처: 위키피디아) 2. 일원분산분석(One-way ANOVA) - 일원 배치법(One-way layout)은 특성값에 대한 한 종류의 변수의 영향을 조사할 때 사용하는 분산 분석법입니다. 변수의 각 수준이 처리(treatment)가 되며 2개의 처리 효과를 비교할 때는 t-검정을, 3개 이상의 처리 효과를 비교할 때는 ANOVA를 사용합니다. - 즉, 일원 분산분석은 3개 이상의 모평균 간 차.. 2021. 6. 13. [통계] 다중선형회귀(Multivariable Linear Regression) - 이전 글 - 1) 2021.06.13 - [통계 분석(Statistics)] - [통계]선형회귀분석_회귀계수의 추정과 T검정 2) 2021.06.13 - [통계 분석(Statistics)] - [통계] 선형회귀분석_결정계수와 분산분석(ANOVA) 앞의 글들에서는 단순선형회귀, 즉 독립변수가 1개인 경우만 살펴보았습니다. 하지만 일반적으로 독립변수가 여러개인 상황이 일반적이죠. 오늘 글에서는 독립변수가 2개 이상일 경우, 어떻게 회귀계수를 추정하고 검정하는지 살펴보도록하겠습니다. 1. 다중회귀분석 1.1 독립변수가 2개인 경우 1) 회귀계수의 점추정 2) 회귀계수의 표준오차 - X의 변량과 회귀계수의 표준오차는 서로 반비례관계에 있음을 확인할 수 있다. = X의 변량을 크게 함으로써, 회귀계수의 표준오.. 2021. 6. 13. [통계] 선형회귀분석_결정계수와 F검정 이 글에서는 김성범 교수님의 강의자료를 일부 참고하였습니다. 공부를 하면서 찾아본 강의 중 가장 흐름이 이해가 잘되고 자료가 깔끔하여서 강력히 추천드립니다! :D https://www.youtube.com/watch?v=ClKeKeNz7RM 지난 선형회귀분석 설명에서 결정계수 R2에 대해서 간단히 살펴보았습니다. 2021.05.23 - [통계 분석(Statistics)] - [통계] 선형회귀분석(Linear Regression) [통계 기초] 선형회귀분석(Linear Regression) 2021.05.23 - [통계 분석(Statistics)] - [통계 기초] 상관관계(Correlation Coefficient) [통계 기초] 상관관계(Correlation Coefficient) 1. 상관관계(Cor.. 2021. 6. 13. [통계] 선형회귀분석_회귀계수 추정과 T검정 지난 글에서는 선형회귀분석에 대해서 살펴보면서, 회귀식은 어떻게 추정하는지 그리고 그렇게 추정된 회귀모형이 얼마나 설명력이 있는지 결정계수 R2를 가지고 적합도를 판단할 수있음을 보았습니다. 2021.05.23 - [통계 분석(Statistics)] - [통계 기초] 선형회귀분석(Linear Regression) [통계 기초] 선형회귀분석(Linear Regression) 2021.05.23 - [통계 분석(Statistics)] - [통계 기초] 상관관계(Correlation Coefficient) [통계 기초] 상관관계(Correlation Coefficient) 1. 상관관계(Correlation Coefficient) 1.1 상관관계란? - [의미] 상관.. hyen4110.tistory.com .. 2021. 6. 13. [통계] 선형회귀분석(Linear Regression) 2021.05.23 - [통계 분석(Statistics)] - [통계 기초] 상관관계(Correlation Coefficient) [통계 기초] 상관관계(Correlation Coefficient) 1. 상관관계(Correlation Coefficient) 1.1 상관관계란? - [의미] 상관관계는 두 변수 간의 직선관계를 나타냅니다. 상관관계가 있다는 것은 인과관계가 있다는것이 아닙니다. 상관관계가 높다고해서 두 hyen4110.tistory.com 이전 글에서는 상관관계 분석에 대해서 알아보았습니다. 상관관계는 두 변수간의 상관관계는 알 수 있었지만 두 변수가 서로 간에 영향을 주는지에 대해 확인할 수 없었습니다. 하지만 회귀분석에서는 변수가 서로 영향을 주는지, 즉 인과관계를 확인할 수 있는 분석방.. 2021. 5. 23. [통계] 상관관계(Correlation Coefficient) 1. 상관관계(Correlation Coefficient) 1.1 상관관계란? - [의미] 상관관계는 두 변수 간의 직선관계를 나타냅니다. 상관관계가 있다는 것은 인과관계가 있다는것이 아닙니다. 상관관계가 높다고해서 두 변수에서 하나의 변수가 다른 변수의 원인을 설명할수는 없습니다. 이유는 알 수 없지만, 상관관계가 높을 뿐이죠. - [부호] 상관관계 값이 0에 가까울수록 직선관계가 없으며, -1에 가까울수록 강한 음의관계, +1에 가까울수록 강한 양의 관계를 가집니다. - [지표] 상관관계를 나타내는 지표를 상관계수라고 합니다. 대표적인 상관계수로는 피어슨 상관계수, 스피어만 상관계수가 있습니다. - 상관관계를 분석하는데 있어서 가장 기본적이고 직관적인 방법은 산점도를 살펴보는 것입니다. 산점도에서 분.. 2021. 5. 23. [통계] 카이제곱 검정(Chi-squre test) 1. 카이제곱 검정이란? - Chi(카이) 란? : 카이(chi, χ)란 그리스 알파벳 버전으로 표준정규분포를 의미 - 카이제곱분포(Chi-Square Distribution) - 카이제곱 검정(Chi-Square Distribution) : 피어슨의 카이제곱 검정은 하나 또는 더 많은 범주형 변수의 교차표*에서 예측 빈도(expected frequency)와 관측 빈도(observed frequency) 사이의 차이가 통계적으로 유의한지 결정하는 검정 (출처: 위키피디아) : 범주(category)별로 관측된 빈도와 기대빈도의 차이를 봄으로써 하나의 확률모형이 전반적으로 자료를 얼마나 잘 설명하는지 검정하는데 사용 (출처: KMOOCS) : 카이제곱값 구하는 법 -> χ² = Σ (관측값-기댓값)²/기.. 2021. 4. 27. [통계] 05 두 집단 비교에 대한 추론 hyen4110.tistory.com/6?category=934053 [통계] 03 표본분포(Sampling distribution) 표본분포 기초 이론에 들어가기에 앞서, 어떻게, 왜 표본분포를 통해 모집단의 특성(모수)를 추정할 수 있는지 살펴보겠습니다. 1. [Why] 표본조사는 왜 하는가? -> '전수조사의 대안, 표본조사' 어 hyen4110.tistory.com 지금까지는 모집단이 1개였을 때에는, 모집단으로부터 표본분포를 구한 후 우리가 수집한 표본i가 표본분포 상에 존재하는 값임을 이용하여 표본분포의 평균과 표본i의 평균의 차이가 얼마나 유의미한지 계산하였습니다. (위의 이전 글 참고) 그렇다면, 두 집단을 비교하는 문제에서는 무엇을 비교해야 할까요? -> '두 모집단의 평균이 얼마나 차이.. 2021. 4. 23. [통계] 04 가설검정_1, 2종 오류와 유의수준 1. 1종 오류, 2종 오류 - 1종 오류 : 귀무가설이 참인데, 귀무가설을 기각 - 2종 오류 : 귀무무가설이 거짓인데 귀무가설을 채택 - 유의수준을 어떻게 설정하느냐에 따라서 1종오류가 발생하기도, 2종오류가 발생하기도 합니다. 유의수준이 높을 때 유의수준이 낮을 때 1) 신뢰구간이 줄어들어 신뢰구간내에 존재할 확률이 낮아짐 2) 기각역이 넓어져서 귀무가설을 더 잘 기각 하게된다 -> 1종 오류가 발생하기 쉽다 1) 신뢰구간이 넓어져서, 신뢰구간 내에 존재할 확률 높아짐 2) 기각역이 줄어들어, 귀무가설을 잘 기각하지 못함 -> 2종 오류가 발생하기 쉽다. 2021. 4. 19. [통계] 03 표본분포(Sampling distribution) 표본분포 기초 이론에 들어가기에 앞서, 어떻게, 왜 표본분포를 통해 모집단의 특성(모수)를 추정할 수 있는지 살펴보겠습니다. 1. [Why] 표본조사는 왜 하는가? -> '전수조사의 대안, 표본조사' 어떤 집단의 평균값을 계산하는 가장 정확한 방법은, 전수조사를 해서 평균을 구하는 것입니다. 하지만, 집단의 크기가 100만, 1000만이라면 과연 전수조사를 할 수 있을까요? 과다한 비용과 시간 때문에 불가능할 것입니다. 따라서 일부만 추출해서 전체를 추정하는 표본조사를 해야합니다. -> '표본조사의 불확실성' : 하지만 과연 하나의 표본(sample)을 추출하여 모집단의 평균을 정확히 추정할수 있을까요? 사실은 불가능합니다. 우연의 일치로 표본의 평균이 모집단의 평균과 같을 수 있지만, 언제나 우연이 따.. 2021. 4. 19. [통계] 02 정규분포(Normal distribution) 1. 정규분포란? 1) 정규분포의 정의 : 확률분포 X가 아래와 같은 확률밀도함수 f(X)를 가질 때, X는 평균 μ 분산 σ²인 정규분포를 따른다. 2) 정규분포의 특성 ① 정규분포는 여러 모양이 있으며, 서로 평균과 분산이 다를 수 있다. - [Question] 그럼 어떤 분포를 정규분포라고 할 수 있을까? (Answer) 확률밀도함수 f(X)의 넓이가 아래와 같은 특성을 보인다면, 각각 정규분포를 따른다고 할 수 있다 ② 종모양(bell shaped), 대칭형(symmetrical around the mean) ③ 정규분포의 평균(Mean) = 중앙값(Median) = 최빈값(Mode) ④ 정규분포의 확률 계산 ⑤ 정규분포에 평균, 표준편차가 미치는 영향 영향 구체적 설명 평균 수평(좌우) 이동 -.. 2021. 4. 19. [통계] 01 분포를 어떻게 설명하는가? 01 중심경향치(Central Tendency) - 중심경향치(Central tendency)는 통계학 및 수학에서 자료 데이터 분포의 중심을 보여주는 값으로서 자료 전체를 대표할 수 있는 값을 이르는 말이다. 대표값이라도 한다 (출처: 위키피디아) - 대표적인 중심경향치: 산술평균(mean), 중앙값(median), 최빈값(mode) 1. 최빈값(mode) - 가장 큰 빈도수를 가진 관측치 - 계산(computation)이 아닌 세기(counting)으로 계산할 수 있음. - 주로 범주형 데이터에서 사용된다(most common category) - 하나의 최빈값을 가질때 unimodal, 2개의 최빈값을 가질 때 bimodal이라고 한다. 2. 중앙값(median) - 어떤 주어진 값들을 크기의 순서.. 2021. 4. 19. 이전 1 다음