pyspark를 하다보면 가장 어려운 부분은 세팅 부분이란걸 알게 된다. 프로그래밍이야 뭐 파이썬과 거의 같고 함수 몇개만 알고 어떻게 돌아가는지 적당히 몇개 돌리다 보면 할수 있다. 하지만 세팅이나 설정과 관련해서 곤란을 많이 겪는다. 예를들어 몇시간동안 어떤 작업을 돌리고 collect()로 모든 데이터를 리스트로 가져왔는데 메모리가 부족해서 프로그램이 죽어서 처음부터 다시 돌려야한다던지....(-_-) 하는 일이 참 많다. 이번 글에 적을 내용은 collect()와 관련된 내용이다. 내가 해야 할 일은 어떤 데이터를 어떤 함수에서 처리한 후 redis에 전부 집어넣는것이다. 나는 이미 redis관련 클래스를 만들어놓았었다. 그래서 리스트로 가져온 후 레디스에 push할수 있었다. 이것만 생각해보면 ..