본문 바로가기

Programming/Data mining

(25)
8. Animation, interactivity(인터랙티브한 데이터표현)_python Coursera.org 에서 Michigan University의 Applied Data Science with Python의 강의를 토대로 정리한 내용입니다. 이제까지 다뤘던 method와 라이브러리를 활용하여 움직이는 animation이나 사용자들과 상호작용하는 interactive한 데이터표현을 알아보자. 먼저 간단하게 plotting 되는 과정을 animation으로 어떻게 표현할 수 있을 지 히스토그램을 예시로 알아보도록 하자. 코드는 다음과 같다. #이렇게 animation을 import해준다. import matplotlib.animation as animation #크기 100의 랜덤 분포에 대해서 살펴보자. n = 100 x = np.random.randn(n) # create the f..
7. Boxplot, Heatmap _ python Coursera.org 에서 Michigan University의 Applied Data Science with Python의 강의를 토대로 정리한 내용입니다. 이제까지 예전 포스팅에서 열심히 배웠던 pandas를 별로 활용하지 않았는데요, 이제 본격적으로 슬슬 사용해보도록 하죠. 사실 pandas의 DataFrame은 matplotlib에서 매우 유용한 데이터타입이랍니다. normal random gamma distribution을 랜덤하게 생성한 후 데이터프레임에 저장한 후 plotting 해볼게요. 그리고 이 때, boxplot이란 걸 사용할건데요, boxplot은 생소한 분들도 많으시겠지만 뭔가 실험데이터와 관련된 논문이나 자료를 보신 분들은 한번쯤 반드시 보셨을 형식의 데이터표현이랍니다. 바로 ..
6. Subplots, Histograms _ python Coursera.org 에서 Michigan University의 Applied Data Science with Python의 강의를 토대로 정리한 내용입니다. Assignment2를 간신히 pass하고 이제 subplot으로 넘어왔네요.. 한번 자랑하고 갈게요! ㅋㅋ 2005년부터 2015년까지의 미국 일부 지역의 일별 온도 데이터에서 2005-2014년은 각 월일에서 최대 최소 온도를 각각 이어서 line graph를 그리고 그 사이를 회색으로 채웠답니다. 그리고 2015년 데이터 중에서 이 회색 범주에 들어가지 않는 친구들을 scatter plot했구요, 범례와 각 축과 타이틀을 채우고 디자인적으로 이쁠 수 있으면 chart-junk를 최소화 하기 위해 위쪽과 우측에 축도 invisible하게 해봤..
5. Scatterplots, Line plots, Bar charts _ python Coursera.org 에서 Michigan University의 Applied Data Science with Python의 강의를 토대로 정리한 내용입니다. 이번 포스팅에서는 기본적인 파이썬을 이용하여 기본적인 데이터들의 plot을 그려보도록 하려고 한다. Scatter plot(산점도 분포 그래프), Line plot(선 그래프), Bar charts(막대 그래프)에 대해서 순서대로 알아보자. 1. Scatter plot 산점도 분포 그래프를 그릴 때 plt.plot과 차이점은 plt.plot 기본적으로 line plot의 object를 가지게 된다. 따라서 scatter라는 명명이 필요하다. 이제부터 plot을 그릴 때는 numpy의 array를 적극적으로 활용하도록 하겠다. 먼저 (1,1)부터 ..
4. Matplotlib Architecture _ python Coursera.org 에서 Michigan University의 Applied Data Science with Python의 강의를 토대로 정리한 내용입니다. 이번 포스팅부터는 본격적으로 Matplotlib 라이브러리에 대해서 다루어보려고 한다. 먼저 Matplotlib의 기본적인 구조부터 살펴보도록 하자. 1. Backend Layer 먼저 backend layer는 우리가 스크린이나 파일에 plot을 그릴 수 있도록 해준다. 2. Artist Layer Figure나 Subplot, Axes 등을 포함하는 컨테이너이다. 그려지는 거의 모든 것들은 이 artist layer와 매칭된다고 보면 된다. 3. Scripting Layer 사실 plot하는 과정은 위의 backend와 artist layer..
3. 좋은 데이터시각화를 위한 10가지 규칙 _ Ten Simple Rules for Better Figures. Coursera.org 에서 Michigan University의 Applied Data Science with Python의 강의를 토대로 정리한 내용입니다. cited by: https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1003833 Rule 1: 누구에게 보여줄 지 파악하자. Know Your Audience 누구에게 보여주기 위한 데이터시각화인지를 반드시 생각하자. 만약 전문가나 당신의 연구동료를 위해 보여주는 것이라면 많은 단계가 생략될 수 있겠으나, 초심자나 누구나 이해하기 쉬운 데이터표현을 하기위해서라면 데이터표현에 있어서 보다 친절해야할 것이다. Rule 2: 당신이 전하고자 하는 메세지를 파악하자. Iden..
2. Graphical Heuristics/Truthful Art _ python Coursera.org 에서 Michigan University의 Applied Data Science with Python의 강의를 토대로 정리한 내용입니다. 저번 포스팅에 이어서 이번에는 데이터시각화에 있어서 저명한 분들의 서적을 바탕으로 데이터시각화 디자인 방법론에 대해서 알아보도록 하자. 먼저 애드워드 터프(Edward Tufte)는 수적 정보의 비주얼 디스플레이 디자인에 저명한 사람이다. 그는 Graphical Heuristic에 있어서 Data-ink ratio라는 개념과 Chart-junk라는 개념을 소개한다. Heuristic(발견법)이란 무엇일까? Heuristic은 의사결정을 할 때 있어서 따를 수 있는 절차 혹은 규칙을 뜻하며, 이는 가장 최선 혹은 완벽은 아니더라도 실용적이어야 한다..
1. 정보시각화의 원리(Visualization wheel ) Coursera.org 에서 Michigan University의 Applied Data Science with Python의 강의를 토대로 정리한 내용입니다. 우리는 살아가면서 무수히 많은 시각화된 정보들을 접하고 있으며 때로는 생성하게 된다. 간단하게 막대그래프부터 지하철이나 버스 노선도 역시 그 예이다. 이 전 파이썬을 활용한 데이터마이닝에 관련한 9개의 포스팅을 통해 이제 어느정도 데이터를 읽고 쓰고 편집하는 것이 가능하다면, 한 번 그 데이터를 표현해보는것들을 다뤄볼 예정이다. 글쓴이는 원래 데이터 시각화에 많은 관심이 있었기에 이번 단원을 조금 자세하게 연재해보고자 한다. Michigan University의 수업에서는 Alberto Cairo가 제안한 Visualization Wheel에 대..