본문 바로가기

Programming/Data mining

Z-test, T-test, Paired T-test, ANOVA test 비교

기본 개념 정리.

The Central Limit Theorem(중심 극한 정리)
만약, y1...yn이  i.i.d(independent, identically distributed), E(yi)=u, Var(yi) = sigma^(2)이고, x = y1+y2+...yn일 때,
Zn = (x-n*u)/sqrt(n*sigma^(2)) = (x/n - u)/sqrt(sigma^(2)/n)은 n이 무한으로 발산할 때 정규분포를 따른다.
(표본이 커질수록, 표본 평균의 분포는 모집단의 분포와는 상관없이 정규분포에 가까워진다. 이때, 표본 평균의 평균은 u이고, 분산은 모분산에 n을 나눈 것과 같다.)

Chi-분포
만약, Z1...Zk가 independent random variable이며 정규분포를 따를 때,
x = Z1^(2) + ...Zk^(2)는 k를 DOF로 하는 Chi-square 분포를 따른다.
따라서 y1,...yn이 N(u,sigma^(2))를 따른다고 하면,
∑(yi-u)^(2)/sigma^(2)는 n을 DOF로 하는 Chi-square 분포를 따르지만,
∑(yi-y_)^(2)/sigma^(2)는 n-1을 DOF로 하는 Chi-square 분포를 따른다.
이유는 (y_-u)^(2)/(sigma/sqrt(n))^(2)이 1을 DOF로 하는 Chi-square 분포를 따르기에,
(카이제곱분포의 가법성 - DOF가 v1인 chi분포 D1과 DOF가 v2인 chi분포 D2가 있을 때, D1+D2는 DOF가 (v1+v2)인 chi분포를 따른다.)
∑(yi-y_)^(2)/sigma^(2) = SS/sigma^(2) = (n-1)S^(2)/sigma^(2) 는 n-1을 DOF로 하는 Chi-square를 따르게 된다.

이를 활용하여, 샘플의 분산을 활용해 모분산의 타당성 검증을 할 수 있게 된다.

T-분포
z가 independent random variable이며 정규분포를 따고, Xk^(2)이 카이분포를 따를 때,
tk = z/sqrt(Xk^(2)/k)는  k를 DOF로 하는 t-분포를 따른다.
따라서, y1,...yn이 N(u,sigma^(2))을 따르는 모집단으로 부터의 샘플이라고 할 때,
tk = (y_-u)/(S/sqrt(n))은 n-1을 DOF로 하는 t분포를 따르게 된다.
이유는 z에 (y_-u)/(sigma/sqrt(n)), Xk^(2)에 (n-1)s^(2)/sigma^(2) 를 대입해보면 위의 식이 나오며 (n-1)S^(2)/sigma^(2) 는 n-1을 DOF로 하는 Chi-square를 따르기 때문이다.

F-분포
Xu^(2)와 Xv^(2)가 카이분포를 따르는 random variable일 때,
(Xu^(2)/u) / (Xv^(2)/v)는 Fu,v 분포를 따르게 된다.
따라서, y11,...y1n1과 y21...y2n2가 공통으로 sigma를 표준편차로 하는 정규분포를 따를 때,
S1^(2)/S2^(2) 는 Fn1-1,n2-2 분포를 따르게 된다.

 

One sample Z-test
DOF: X
샘플의 평균값이 모평균(u)과 얼마나 유의미하게 차이가 있는지를 검증할 때 사용한다.
가정: 정규분포를 따른다. 모집단의 분산을 알 때,
Test Statistic: Z = (x_(샘플의 평균) - u(모평균)) / (시그마(모집단의 분산) / sqrt(n))

One sample t-test
DOF: n-1
샘플의 평균값이 모평균(u)과 얼마나 유의미하게 차이가 있는지를 검증할 때 사용한다.
가정: 정규분포를 따른다. 모집단의 분산을 모를 때,
Test Statistic: t = (x_(샘플의 평균) - u(모평균)) / (시그마(샘플의 분산) / sqrt(n))

Two sample t-test
DOF: n1+n2-2
두 샘플의 평균이 같은 지를 통해서 두 샘플이 동일한 모집단으로 부터 나온 것인지를 테스트한다.
두 샘플 모두 모집단의 분산은 알지 못하지만 우선 같다고 가정한다.
가정: 정규분포를 따른다. , standard pooled variance를 계산한다  (Sp)
Test Statistic: t = (x1_- x2_) / (Sp / sqrt(1/n1 + 1/n2))

Paired t-test
DOF: n-1
두 데이터가 쌍으로 주어졌을 때, (iteration) 두 샘플 각 쌍의 차이가 유의미하게 있는 지를 비교한다.
가정. 정규분포를 따른다.  s.t.d가 같다고 가정한다.
Test statistic: t = d_(두 샘플간의 차이)/(Sd/sqrt(n))(모든 샘플에서 차이에 대한 표준편차)

One-way Anova
DOF: n-1,n-2
3개 이상의 모집단의 평균에 유의미한 차이가 있는지를 검정한다.
(Between group variance/Within group variance)
가정: 정규분포를 따른다.
F = MST/MSE = S1^(2)/S2^(2)