본문 바로가기

Programming/Data mining

1. 정보시각화의 원리(Visualization wheel )

Coursera.org 에서 Michigan University의 Applied Data Science with Python의 강의를 토대로 정리한 내용입니다.

우리는 살아가면서 무수히 많은 시각화된 정보들을 접하고 있으며 때로는 생성하게 된다.
간단하게 막대그래프부터 지하철이나 버스 노선도 역시 그 예이다.
이 전 파이썬을 활용한 데이터마이닝에 관련한 9개의 포스팅을 통해 이제 어느정도 데이터를 읽고 쓰고 편집하는 것이 가능하다면, 한 번 그 데이터를 표현해보는것들을 다뤄볼 예정이다. 글쓴이는 원래 데이터 시각화에 많은 관심이 있었기에 이번 단원을 조금 자세하게 연재해보고자 한다.

Michigan University의 수업에서는 Alberto Cairo가 제안한 Visualization Wheel에 대해서 소개하며 데이터 시각화의 원리에 대해서 설명한다.
아래의 그림을 참고하자.

그림에서 적혀 있듯이, wheel의 윗부분은 보다 복잡하고 깊은 데이터들을 표현하는 것과 관련이 있으며 아래쪽은 보다 알기 쉽고 얕은 데이터들을 표현하는 것과 관련이 깊다.

그럼 먼저 각각의 단어들이 무엇을 뜻하는 지 알아보자.

Abstraction - Figuration (추상-형상)
사진과 같은 실제의 물체와 같은 것들일 수록 형상에 가깝고, 차트나 박스와 같이 단순화한 표현들은 추상에 가깝다.

Functionality - Decoration (기능 - 장식)
장식에 집중하기보다 그 데이터자체의 표현에 집중하였는가, 꾸미는 데 더 집중하였는가를 표현한다.

Density - Lightness (밀도있는, 가벼운)
자세히 살펴봄으로써 많은 데이터들을 얻을 수 있는지, 혹은 한눈에 보기에도 쉽게 데이터들을 파악할 수 있는지를 나타낸다.

density가 높은 데이터 표현

Multidimensional - Unidimensional (다차원, 일차원)
다른 다양한 종류의 데이터들을 표현하였는지, 혹은 한 두개의 데이터들을 표현하였는지를 나타낸다.

Multidimensional 데이터 표현 (나폴레옹의 이동경로) 규모,온도,날짜,이동경로 등 다양한 데이터를 하나에 담아내고 있다.

Originality - Familiarity (독창성, 친숙함)
데이터 표현방식에 있어서 독창적으로 표현하였는지, 친숙하게(막대나 꺽은 선) 표현하였는지 나타낸다.

Novelty - Redundancy (새로움, 반복)
데이터를 표현하는 데 있어서, 한 번만 표현할 것인지 아니면 여러번 반복적으로 표현할 것인지를 나타낸다.

이러한 데이터 시각화의 원리들은 무엇이 더 좋고 나쁨을 나타내는 것이 아니다.
어떤 맥락에서 어떠한 목적으로 데이터를 표현할 지, 그 과정에 있어서 방향을 제시해주는 기준이라고 보면 좋을 것 같다.
아래는 한 가지 쉽게 이해할만한 예시다.
왼쪽의 그림은 과학자나 공학자들이 데이터를 표현하는 방법이다. 전반적으로 위쪽으로 올라온 것으로 보아 데이터를 자세하고 복잡한 방식으로 표현하였음을 알 수 있다.
오른쪽의 그림은 확연히 다르게 나타나는데 이는 그래픽디자이너나 예술가들의 표현방법이다. 이들은 사용자들로부터 데이터를 알기 쉽고 가볍게 전달하고자함을 볼 수 있다.

 

데이터표현에 있어서 가장 중요한 것은 그 목적과 표현방법이 잘 매칭되어야 한다는 것이다.
이 wheel의 요소들은 그러한 표현방법을 정하는 데에 있어서 아주 좋은 평가지표가 될 것이다.