본문 바로가기

Programming/Data mining

2. Graphical Heuristics/Truthful Art _ python

Coursera.org 에서 Michigan University의 Applied Data Science with Python의 강의를 토대로 정리한 내용입니다.

저번 포스팅에 이어서 이번에는 데이터시각화에 있어서 저명한 분들의 서적을 바탕으로 데이터시각화 디자인 방법론에 대해서 알아보도록 하자.

먼저 애드워드 터프(Edward Tufte)는 수적 정보의 비주얼 디스플레이 디자인에 저명한 사람이다.
그는 Graphical Heuristic에 있어서 Data-ink ratio라는 개념과 Chart-junk라는 개념을 소개한다.

Heuristic(발견법)이란 무엇일까?
Heuristic은 의사결정을 할 때 있어서 따를 수 있는 절차 혹은 규칙을 뜻하며, 이는 가장 최선 혹은 완벽은 아니더라도 실용적이어야 한다. 이는 추론되어 나오는 근거를 찾을 때 까지 계속된다.

Data-ink ratio
Tufte는 데이터-잉크의 관계를 지워지지 않는 그래픽의 중심이라고 정의하였으며 데이터잉크는 주어진 변수에 대한 가장 필수적인 요소를 뜻한다.
우리는 이에 필요없는 잉크의 양을 줄이도록 노력해야 하며 예시는 아래와 같다.

Data-Ink Ratio

Chart-junk
Tufte가 제안한 또 다른 Heursitc중 하나는 Chart-junk는 앞서 살펴봤던 비데이터적인 잉크보다 더 강조되고 있다. 예시로는,


1. 의도하지 않은 추상적 아트(무아레 패턴) -> 차라리 직접 데이터에 라벨링을 하자.
2. 격자 -> 마찬가지.
3. Duck: 비데이터형 창작 그래픽을 뜻한다.
(하지만 니겔 홈즈 등은 굉장히 이러한  duck을 잘 활용하기도 함, 우측 그림 참고)
- 베이트맨의 연구에 따르면 이러한 duck을 활용한 그래픽은 이용자로 하여금 오래 기억에 남는 경향이 있음 (24명을 대상으로 2-3주 간격으로 실험을 진행)
- Bateman, S., Mandryk, R. L., Gutwin, C., Genest, A., McDine, D., & Brooks, C. (2010, April). Useful Junk?: The Effects of Visual Embellishment on Comprehension and Memorability of Charts. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (pp. 2573-2582). ACM.

또한 아래와 같은 스파크라인 형태의 데이터시각화는 아주 좋은 트렌드의 예이다.

 

이번에 소개한 또 다른 저명한 데이터과학자는 Alberto Cairo이다.
그의 저서인 The Truthful Art는 모든 데이터과학자들의 필수 도서로 활용되어야 한다고 주장되며,
이 책의 기본적인 내용인 정보 디자인의 5가지 특성에 대해서 알아보도록 하자.

1. 정보디자인은 Truthful, 진실되어야 한다.


Cairo는 진실은 주관적으로 해석될 수 있음을 인정하며, 그렇기에 항상 우리는 스스로에게 '의심'해야하며 자기자신 뿐만 아니라 자신의 결과를 보는 사람들을 기만해서는 안된다. 데이터를 다루고 요약할 때는 보다 더 현상을 완벽하게 탐구하는 능력을 지녀야 한다.

우측의 데이터는 왜곡된 정보디자인의 예시로, 실제로 x축의 기간이 다르며 중간에 년도가 일부로 생략되었음을 볼 수 있다.

2. 정보디자인은 functionality, 기능적이어야 한다.
단순히 데이터의 표현이 아닌 보다 더 데이터를 잘 전달하기 위해 노력해야 한다.

3. 정보디자인은 Beauty, 아름다워야 한다.

4. 정보디자인은 Insightful, 통찰력이 있어야 한다.
보는 사람들로 하여금 데이터를 보고 '유레카!'를 외칠만한 순간을 끌어내어야 한다는 것이다. 초보 작가들의 공통적인 실수는 모든 자료가 어떠한 형상을 담고 있다는 것인데, 그것을 실제로 불필요하며 독자들로 하여금 짜증을 불러일으킨다. 

5. 마지막으로 정보디자인은 Enlightful, 계몽적이어야 한다.
이는 다소 논쟁의 여지가 있지만, 카이로는 위의 4개의 요소들로 이것이 이루어져있으며 여기에 사회적 도덕적 책임감이 더해져야 한다고 한다.

처음 이 강의를 들을 때는 어서 빨리 데이터를 시각화하는 툴을 배워보고자 하였으나, 강의를 들으면 들을수록 데이터시각화에 대해서 진지하게 고민하는 나로써는 매우 만족도가 높은 강의였다. Assignment로는 Albert Cairo의 Graphical Lies, Misleading Visuals라는 논문을 읽고 질문에 답하는 것이었는데, assignment 관련 답안포스팅은 honor code에 위배되어 다 내렸지만 이는 별도로 정리하여 포스팅해봐야겠다.