'2017/07/13 글 목록

hadoop 맵리듀서 구현.

http://www.glennklockwood.com/data-intensive/hadoop/streaming.html#3-5-adjusting-parallelism 보고 따라 구현하면서 느낀점 등을 적음. 기본적인 하둡 설치같은건 되있다고 가정. 저기에 써있는데로 워드카운팅하는 맵리듀서 예제는 하둡의 Hello World라고 함. 맵리듀스에 관한 예제는 이전에 적어놓았었다 : http://qkqhxla1.tistory.com/900wordcount 예제. mapper.py #!/usr/bin/python import sys for line in sys.stdin: line = line.strip() keys = line.split() for key in keys: value = 1 print( "%s\..

data engineering 2017.07.13

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

archives

2017/07/13 1

티스토리툴바