본문 바로가기

Programming/Data mining

3. 좋은 데이터시각화를 위한 10가지 규칙 _ Ten Simple Rules for Better Figures.

Coursera.org 에서 Michigan University의 Applied Data Science with Python의 강의를 토대로 정리한 내용입니다.
cited by: https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1003833

Rule 1: 누구에게 보여줄 지 파악하자. Know Your Audience

누구에게 보여주기 위한 데이터시각화인지를 반드시 생각하자. 만약 전문가나 당신의 연구동료를 위해 보여주는 것이라면 많은 단계가 생략될 수 있겠으나, 초심자나 누구나 이해하기 쉬운 데이터표현을 하기위해서라면 데이터표현에 있어서 보다 친절해야할 것이다.

Rule 2: 당신이 전하고자 하는 메세지를 파악하자. Identify Your Message

강조하고자 하는 메세지가 무엇인지와 어떻게 그것을 표현하는 것이 가장 효과적일지를 고려하자. 그 이후에는 그 메시지가 당신의 데이터시각화 결과물에 완벽한 가이드가 되어줄 것이다.

Rule 3: 상황이나 매체에 맞춘 시각화를 하자. Adapt the Figure to the Support Medium

만약 당신이 논문과 같이 최대한 상세한 정보를 전달해야할 의무가 있다면, 최대한 실험결과를 다 표현할 수 있는 figure를 사용할 것이다. 하지만 그 논문의 결과를 발표하는 세션과 같은 상황에 사용해야할 PPT에는 최대한 보는 사람들이 빠른 시간에 이해할 수 있도록 핵심내용만을 전달해야할 것이다. 어떤식의 데이터표현이 상황이나 매체에 적합할 지 반드시 고려하도록 하자.

왼쪽은 논문 / 오른쪽은 발표용.

Rule 4: 주석은 선택사항이 아니다. Captions Are Not Optional

Figure은 반드시 caption과 같은 설명이 수반되어야하며, caption은 어떻게 figure를 읽는 지와 그에 대한 상세한 기술을 해주어야 한다. 만약 강조하고 싶은 부분이 있다면, figure에서 그것을 표현해주는 것 뿐만 아니라 주석에서 역시 그것을 한번 더 언급해주는 것을 망설일 필요가 없다.

Rule 5: 기본값 세팅을 믿지 말자. Do Not Trust the Defaults

어떤 plotting 라이브러리나 프로그램들도 저마다의 default setting(기본값 세팅)을 가지고 있다. 사이즈나 폰트, 컬러, 스타일까지 사용자가 지정해주지 않을 때 저마다의 기본값으로 데이터를 표현할 것이다. 그것들은 대부분 어느정도 데이터 표현에 적절한 표현방법을 제시하지만 그것은 각각의 데이터표현에 최선은 결코 아니다. 좋은 데이터표현을 위해서 우리는 각각의 기본값을 튜닝해줄 필요가 있다.

Rule 6: 컬러를 잘 활용하자. Use Color Effectively

컬러는 데이터시각화에 있어서 매우 효과적인 데이터 표현수단이 될 수도 있지만, 잘못 쓸 경우 Edward Tufte가 말했던 것 처럼 최고의 적이 될 수도 있다. 다양한 레퍼런스를 찾아보면서 적절한 컬러를 활용할 수 있도록 하자. 그리고 만약 어떤 컬러를 쓸 지 확신이 안 서거나 애매하다면, 그냥 검정이나 무채색으로 남겨두자.

Rule 7: 독자들에게 잘못 전달하지 말자. Do Not Mislead the Reader

데이터시각화에 있어서 Misleading(잘못된 안내)는 매우 중요한 이슈이다. 그것은 때로는 의도되기도 하지만, 때로는 나쁜 의도 없이도 많은 독자들로 하여금 데이터를 왜곡하여 이해할 수 있게 한다. 이것은 데이터사이언티스느나 인포그래픽 디자이너들이 반드시 명심해야하는 주제이며 관련된 글은 카이로의 아래의 글에서 자세히 다루고 있으니 꼭 한번 읽어보는 것을 추천한다.
Cairo, A. (2015). Graphics lies, misleading visuals. In New Challenges for Data Design (pp. 103-116). Springer London.

Rule 8: Chartjunk를 피하자. Avoid “Chartjunk”

chartjunk의 개념은 아래의 이전 글에서 그 개념을 언급했었다.
2020/02/09 - [Programming/Data mining] - 2. Graphical Heuristics/Truthful Art _ 파이썬을 이용한 데이터표현
데이터표현에 있어서 chartjunk나 data-ink ratio는 가급적 줄이도록 하자.

Rule 9: 메세지가 아름다움보다 중요하다. Message Trumps Beauty

흔히 데이터표현을 할 때 우리는 그 형식을 이전의 다양한 레퍼런스들을 바탕으로 하게 될 것이다. 하지만 이는 별로 좋지 않은 방법일 수 있다. 왜냐하면 과학적인 접근에 있어서는 그 형식이 잘 맞지 않을 수 있기 때문이다. 기억하자.
과학에서는, 메세지와 가독성이 자료의 아름다움보다 훨씬 중요하다는 것을.

Rule 10: 적절한 툴을 사용하자. Get the Right Tool

데이터 시각화를 위해서는 정말 많은 툴이 존재한다. 이 중에서 우리는 어떤 툴을 사용할 지 심사숙고해야한다. 아래에는 데이터시각화에 혹은 표현에 주로 사용되는 툴이다.

Matplotlib은 파이썬의 plotting 라이브러리로 주로 2D plotting과 일부 3D plotting에 사용된다. 
R은 통계적 컴퓨팅과 그래프를 위한 언어이다. 많은 통계적 기능들과 그래픽 기술들을 제공한다.
D3.js는 자바스크립트의 라이브러리로 인터랙티브한 데이터기반의 그래픽 요소들을 만들고 제어할 수 있다.
https://github.com/d3/d3/wiki/Gallery