머신러닝 알고리즘 정리 (Linear regression, Logistic regression)
0. Supervised vs Unsupervised Learning 간단히 말해 labeled data, 즉 타겟 변수(target variable)의 존재유무로 판단한다. 0-1. Supervised Learning labeled data가 존재하여, 정답을 알려주면서 training set를 이용하여 학습한 후, test set이나 inner validation을 통해 알고리즘 별 적합한 score를 계산하여 성능을 비교하는 것. ex) Linear regression, Logistic regression, Linear discriminant analysis(LDA), Decision Tree, Random Forest, K nearest neighborhood(K-NN), Supprot vecto..
Z-test, T-test, Paired T-test, ANOVA test 비교
기본 개념 정리. The Central Limit Theorem(중심 극한 정리) 만약, y1...yn이 i.i.d(independent, identically distributed), E(yi)=u, Var(yi) = sigma^(2)이고, x = y1+y2+...yn일 때, Zn = (x-n*u)/sqrt(n*sigma^(2)) = (x/n - u)/sqrt(sigma^(2)/n)은 n이 무한으로 발산할 때 정규분포를 따른다. (표본이 커질수록, 표본 평균의 분포는 모집단의 분포와는 상관없이 정규분포에 가까워진다. 이때, 표본 평균의 평균은 u이고, 분산은 모분산에 n을 나눈 것과 같다.) Chi-분포 만약, Z1...Zk가 independent random variable이며 정규분포를 따를 때, ..