본문 바로가기

Programming/Data mining

(25)
Statistical Test Statistical Test: hypothesis testing Statistically significant relationship? or difference between two or more groups. Test statistics: a number that describes how much the relationship between variables in the test. p-value (probability value): extreme-> infer a statistically significant relationship. Assumption 1. Independence of observations. 2. Homogeneity of variance. 3. Normality of data R..
Pytorch 01. 파이토치 시작하기. 이 포스팅은 순수 개인 연구 목적으로 처음 딥러닝을 사용하며 정리용으로 작성되었습니다. 1. Pytorch 설치 #ANACONDA conda install pytorch torchvision -c pytorch #PIP pip3 install torch torchvision 2. 텐서(Tensor) numpy의 ndarray와 같은 자료구조라고 생각하면 됨. 이는 자동미분에 최적화되어있음. #array data 바로 tensor화 data = [[1, 2],[3, 4]] x_data = torch.tensor(data) #numpy의 tensor화 #이 때 서로의 값을 참조하고 있기 때문에 변경사항이 서로 반영됨 np_array = np.array(data) x_tensor = torch.from_num..
머신러닝 알고리즘 정리 (K-NN, SVM) 1. K-NN (K-nearest neighborhood) classification 알고리즘의 일종으로 user가 직접 정의하는 parameter인 K에 따라 데이터들 간의 거리를 기반으로 가까운 K개의 데이터들의 투표를 통해 분류를 진행한다. 이 때, k는 sqrt(n)보다 작은 값으로 정하며, 너무 작을 시에는 noise가 심하고(variance가 커서 신뢰도가 떨어짐), 너무 클 경우에는 다른 클래스의 데이터가 포함될 가능성이 크므로(bias가 커지므로 부정확해 질 수 있음) k를 잘 정하는 것이 중요하다. 데이터들 간의 거리는 Euclidean, Manhattan, Minkowski, correlation 등 다양한 거리 계산 방법을 활용할 수 있으며, 사전지식이나 cross-validation..
머신러닝 알고리즘 정리 (Decision Tree, Random Forest) 1. Decision Tree (결정 트리) Rull based prediction model로 Tree구조로 각 노드에서 binary 혹은 multi-way의 조건을 체크하면서 모든 응답이 거의 같은 값을 가리킬 때 까지 leaf node로 classification 혹은 regression을 하는 머신러닝 기법이다. 쉽게 설명하면 스무고개를 통해 원래 데이터가 어디에 속하는 지 알아나가는 과정이라고도 볼 수 있다. 각 노드에 질문을 통해 분류되는 클래스들은 homogenous(같은 클래스의 비중이 높을수록)할수록 좋다. 예를 들면 어떤 질문을 통해 5:5로 나누어지는 것 보다는 9:1로 나눌 수 있는 것이 좋다는 것이다. 다시 말해 각 영역의 순도(homogeneity)가 높을 수록, 불순성(Node..
머신러닝 알고리즘 정리 (PCA, LDA) 1. PCA (Principal Component Analysis) Unsupervised learning의 일종으로, independent variable들 사이에 correlation을 없애고, 숨은 latent variable을 찾아내거나, 노이즈(noise)를 줄일 때 사용한다. PCA를 돌린 후 나오는 값들은 다음의 의미를 가진다. PC(eigenvector) : 기존 변수들로 이루어진 선형 벡터이며, 기존의 변수들을 설명한다. PC loadings: 기존 변수들과 PC사이의 correlation 값으로, 해당 PC로 기존의 변수들을 얼마나 잘 설명하는 지 percentage로 보여준다. PC score: 각각의 PC에 대해서 재 생성된 observation data들이다. (latent var..
머신러닝 알고리즘 정리 (Linear regression, Logistic regression) 0. Supervised vs Unsupervised Learning 간단히 말해 labeled data, 즉 타겟 변수(target variable)의 존재유무로 판단한다. 0-1. Supervised Learning labeled data가 존재하여, 정답을 알려주면서 training set를 이용하여 학습한 후, test set이나 inner validation을 통해 알고리즘 별 적합한 score를 계산하여 성능을 비교하는 것. ex) Linear regression, Logistic regression, Linear discriminant analysis(LDA), Decision Tree, Random Forest, K nearest neighborhood(K-NN), Supprot vecto..
Z-test, T-test, Paired T-test, ANOVA test 비교 기본 개념 정리. The Central Limit Theorem(중심 극한 정리) 만약, y1...yn이 i.i.d(independent, identically distributed), E(yi)=u, Var(yi) = sigma^(2)이고, x = y1+y2+...yn일 때, Zn = (x-n*u)/sqrt(n*sigma^(2)) = (x/n - u)/sqrt(sigma^(2)/n)은 n이 무한으로 발산할 때 정규분포를 따른다. (표본이 커질수록, 표본 평균의 분포는 모집단의 분포와는 상관없이 정규분포에 가까워진다. 이때, 표본 평균의 평균은 u이고, 분산은 모분산에 n을 나눈 것과 같다.) Chi-분포 만약, Z1...Zk가 independent random variable이며 정규분포를 따를 때, ..
9. Pandas Visualization / 코세라(COURSERA) 수료증_python Coursera.org 에서 Michigan University의 Applied Data Science with Python의 강의를 토대로 정리한 내용입니다. https://www.coursera.org/account/accomplishments/certificate/JE6Q4XBQM2JJ https://www.coursera.org/account/accomplishments/certificate/8HD7UJ4SY4B 헿.. 시작하기에 앞서서 드디어 이번 파이썬을 활용한 데이터마이닝의 두번째 코스 파이썬을 활용한 데이터표현 수료증을 받았다! 코세라(COURSERA)수료증은 위에 처럼 나온다. 받고 나면 굳이 이걸 위해서 돈을 내고 들었어야 하나 생각도 잠시 들지만, 코세라 강의의 핵심은 수업보다 과제에..