2017/10 2

pyspark 큰 용량의 collect()를 범위로 잘라서 가져오는 방법.

pyspark를 하다보면 가장 어려운 부분은 세팅 부분이란걸 알게 된다. 프로그래밍이야 뭐 파이썬과 거의 같고 함수 몇개만 알고 어떻게 돌아가는지 적당히 몇개 돌리다 보면 할수 있다. 하지만 세팅이나 설정과 관련해서 곤란을 많이 겪는다. 예를들어 몇시간동안 어떤 작업을 돌리고 collect()로 모든 데이터를 리스트로 가져왔는데 메모리가 부족해서 프로그램이 죽어서 처음부터 다시 돌려야한다던지....(-_-) 하는 일이 참 많다. 이번 글에 적을 내용은 collect()와 관련된 내용이다. 내가 해야 할 일은 어떤 데이터를 어떤 함수에서 처리한 후 redis에 전부 집어넣는것이다. 나는 이미 redis관련 클래스를 만들어놓았었다. 그래서 리스트로 가져온 후 레디스에 push할수 있었다. 이것만 생각해보면 ..

data engineering 2017.10.30

2017-10-18 수요일

팀이 또 커지고 있다. 갑자기 여기서 한명 저기서 한명씩 사람들이 들어온다. 이러다 팀이 하나 더 생길지도 모르겠다.저번에 팀 회식을 했었는데 팀장님이 해주신 말이 기억에 남는다. 모든 직장인이 생각하는거겠지만 종종 어떻게 하면 이직을 성공적으로 하거나 팀에서 연봉상승률을 잘 높일수 있을까? 하는 생각을 한다. 역시나 가장 먼저 드는 생각은 실력이 아주 뛰어나면 된다. 그리고 항상 사회선배들이나 다른 곳에서 듣거나 하는 이야기는 인맥이다. 사실 인맥이라고 하면 그냥 많이 알고 친하게 지내는거? 라고 막연하게 생각했었는데 팀장님이 인맥에 대해서 말씀을 해주셨다. 한가지 예를 들어주셨는데.. 단순히 내가 어떤 사람과 술사주는 그런 친한 관계라고 하자. 만약 그사람이 성공적으로 이직을 한 후 팀을 새로 만들거..