machine learning, image

데이터마이닝, 머신러닝 공부관련(커리큘럼)

qkqhxla1 2015. 9. 1. 15:41

페이스북 python korea에서 Sungchul Choi 님이 적어주신 글. 잊어버릴까봐 통째로 복사

문제될시 비공개로 돌리겠습니다.


# 데이터마이닝 공부 로드맵 for 파이썬

제목과 관련하여 얼마전에 정리한 내용이 있어 공유 드립니다. 제가 공부한 과정이기도 하고, 제가 운영하는 연구실의 코스웤이기도 합니다. 현재 학교에서도 이 코스로 MOOC 강좌를 개발하고 있습니다... 언제 끝날지는 ㅎㅎ 필요하신 분께 도움이 되었으면 합니다.

1) 리눅스 공부: 데이터 분석을 위해서는 리눅스와 command line interface(CLI)에 익숙해 져야 합니다. 리눅스 공부를 먼저 시작하시길 권합니다. 전부다 아실 필요는 없고 윈도우 키고 끄고 폴더 만들고 지우고 하듯이 리눅스 CLI 에서 그런 것들에 익숙해 지시길 권합니다 (참고 도서:http://www.yes24.com/24/goods/12653103?scode=032&OzSrank=1)

2) 수학 공부: 선형대수, 통계, 확률 (베이지안 모델)을 공부가 필요합니다. 모두 khanacademy.org에 있으니 수업을 들으시면 도움이 될 것입니다. 국내 강의중에서는 유튜브에서 "한양대학교. 이상화" 교수님 강의를 추천합니다.

3) 파이썬 공부: 파이썬은 워낙 좋은 자료가 많아 뭐 부터 봐야할지 모르겠습니다. 프로그래밍 자체를 처음 배우신다면 책 중에서(http://www.yes24.com/24/goods/20104204?scode=032&OzSrank=1 )이책을 추천합니다. 코드 아카데미(https://www.codecademy.com/) 가셔서 예제 문제도 푸시는 걸 권합니다. 살짝 제 강의자료(http://www.slideshare.net/blissray/w-37771905) 를 보시는 것도 추천... 할까합니다...

4) Coding the Mathematics: 다음으로 하셔야 할 건 수학 문제를 파이썬 코드로 표현하는 겁니다. 실제로는 대부분 패키지를 많이 쓰시는데 패키지를 안쓰고 하는 법 부터 배우셔야 응용 확장이 가능합니다. 이를 위해서는 파이썬의 NumPy, Pandas, SciPy 패키지를 아셔야 하고, 관련된 서적들을 보셔야 합니다. 추천하는 서적들은 아래와 같습니다.
- Coding the Matrix (http://www.yes24.com/24/goods/17967245?scode=032&OzSrank=1)
- 파이썬 라이브러리를 활용한 데이터 분석(http://www.yes24.com/24/Goods/11043328?Acode=101)
- 파이썬을 활용한 베이지안 통계 (http://www.yes24.com/24/goods/13834849?scode=032&OzSrank=1)

5) 데이터마이닝 공부: 다와갑니다. 다음으로 데이터 마이닝 (또는 머신러닝)공부를 하시기 바랍니다. 공부를 할 때 중요한 건 단순히 이론만 아는게 아니라 실제 코딩할 수 있어야 합니다. 그래서 이론 책 1권과 코딩 자체를 연습할 수 있는 코세라 강의를 추천드립니다. 책은 참 많긴 한데 전 파닝탄의 데이터마이닝(http://www.yes24.com/24/goods/2643217?scode=032&OzSrank=8)을 이론서적으로 많이봅니다. 참고로 번역이 별로니 원서를 보시길 권합니다. 실제 코딩을 해보기 위해서는 <머신러닝 인 액션(http://www.yes24.com/24/goods/9046762?scode=032&OzSrank=2)> 을 한번 보시면서 앤드류 응 교수님의 코세라 강의(https://www.coursera.org/learn/machine-learning)를 들으실것을 권장합니다. matlab으로 되어 있는데 이미 파이썬을 어느정도 다루시면 matlab은 쉽습니다. matlab으로 되어 있는 숙제들을 NumPy, SciPy 등을 사용해서 파이썬으로 다시 구현해보시면 도움이 많이 될 것입니다

6) 패키지 공부: 데이터 마이닝의 기본을 배우셨으면 실제 활용할 때는 패키지로 많이 쓰게 됩니다. 일반적으로 패키지는 scikit-learn 을 많이 씁니다. 국내에는 관련 서적이 많이 없는데. "Building Machine Learning Systems with Python 한국어판 (http://www.yes24.com/24/goods/12417738?scode=032&OzSrank=1)" 정도를 한번 보시는 것도 좋을 듯합니다. 일반적으로 scikit-learn의 홈페이지 tutorial을 공부합니다.