pyspark를 돌리면서 pip로 설치해서 쓰는 외부 모듈을 써야 하는 경우가 있는데, 서버가 우리것이 아니라면 pip로 설치해달라고 할수도 없고 난감하다. 이 경우 해당 모듈을 압축해서 올려서 사용 가능하다. ex) 작업이 완료된 후, 내가 있는 슬랙 채널로 완료됬다는 메시지를 뿌려서 모니터링을 하고 싶어 slacker를 쓰고 싶은데 slacker가 없다. 이 경우... 내 맥 기준이다.slacker라이브러리 위치를 찾는다. 그리고 아래처럼 새 파일을 만든 후 slacker를 붙여넣는다. 모듈 여러개도 된다는걸 알리기 위해 두개 붙여넣었다. python_module폴더를 .egg확장자로 압축한다. 아래 주소에서 --py-files옵션을 보면 다른 확장자도 된다.(그런데 안써봄) https://spark..