Coursera.org 에서 Michigan University의 Applied Data Science with Python의 강의를 토대로 정리한 내용입니다.
매일 쏟아지는 정보와 데이터의 홍수에 살아가는 요즘, 기계는 결코 인간을 이길 수 없을 것이라 여겨졌던 바둑의 영역에서 알파고가 세계를 뒤흔들었고, 뒤이어 머신러닝과 딥러닝이 한참 뜨면서 데이터를 기반으로 많은 현실의 문제점들을 해결해나가기 시작하면서 어떻게 이렇게 수많은 데이터들을 분석하고 다룰 수 있을 지에 세계의 관심이 집중되고 있습니다.
저는 언젠가 데이터마이닝이나 머신러닝도 현재 저희가 사용하고 있는 어도비나 마이크로소프트의 엑셀처럼 하나의 툴처럼 사용될 수 있을 것이라 생각하지만, 지금 같은 과도기에 저처럼 많은 실험데이터를 다루는 연구자들이나 대학에서는 이제 하나의 기본 소양이 되어가고 있는 것 같은데요. 저 역시도, 그러한 관점에서 이번 겨울방학을 활용하여 Coursera.org라는 해외 유수대학에서 강의한 파이썬을 활용한 데이터마이닝 및 머신러닝을 배우고 그 내용을 이 블로그를 활용하여 정리해보고자 합니다.
이번 글은 데이터를 다룰 때 왜 다른 R이나 MATLAB이 아닌 파이썬으로 접근하는 지와 같은 간단한 머리글이 될 예정입니다.
바로 시작해보죠.
1. 왜 파이썬인가요?
1. 배우기 쉽습니다.
- 실제로 미국의 Top 대학 10군데 중 8군데가 파이썬을 활용하여 데이터마이닝을 가르친다고 하죠.
2. 파이썬은 만능이에요!
- 파이썬은 R이나 MATLAB처럼 통계를 위한 언어가 아닙니다. 데이터를 다루는데 필요한 모든 기능 뿐만 아니라 높은 수준의 프로그래밍 역시 가능하죠.
3. 강력한 데이터 과학 라이브러리들이 존재합니다.
- numpy, SciFy와 같은 데이터를 다루는데 유용한 많은 라이브러리들이 존재합니다.
이러한 이유로 파이썬을 데이터마이닝을 공부하는데 사용해볼 예정입니다.
추가적으로 이제부터 업로드 될 내용들은 파이썬에 대한 기본지식은 스킵하고, Pandas Toolkit을 활용한 데이터 정리 및 numpy와 SciFy등과 같은 기본 데이터 분석 라이브러리들의 사용법에 대해서 먼저 소개하도록 하겠습니다.
왼쪽의 그림은 Drew Conway가 데이터 과학에 대해서 정의해 놓은 벤 다이어그램인데요.
해킹 스킬과, 수학 통계적 지식, 그리고 실질적인 전문성의 교집합이라고 하네요.
데이터과학이 머신러닝보다 더 상위 개념으로 생각하고 있었는데 아니었군요. 물론 누가 어떻게 정의하냐에 따라 다르겠지만요.
David Donoho는 "50 Years of Data Science"에서 다음의 단계로 데이터 과학을 표현하기도 했답니다.
1. 데이터 탐험과 준비 2. 데이터 표현과 변형 3. 데이터 컴퓨팅 4. 데이터 모델링 5. 데이터 시각화 및 표현 6. 데이터과학의 과학
관련된 내용은 읽어보면 좋으니 구글 검색을 통해서 살펴보셔도 도움이 될 것 같네요.
'Programming > Data mining' 카테고리의 다른 글
6. Pandas 심화 (Merge(), Pandorable code) (0) | 2020.02.04 |
---|---|
5. pandas 기초(Querying a DataFrame, Indexing) (0) | 2020.02.04 |
4. pandas 기초(series, dataframe) (0) | 2020.02.04 |
3. Numpy 기초 (0) | 2020.02.03 |
2. Objects and map() (0) | 2020.02.03 |