http://qkqhxla1.tistory.com/918 요 글에 이은 두번째 글이다. 실제 환경에서 어떻게 처리했는지 적었다. 일단 프로그램의 흐름은 hive에서 쿼리 결과를 가져와서 csv파일로 저장 -> 다른 하둡 서버에서 csv를 가져옴 -> 저장된 csv파일을 spark에서 읽어서 처리. 하는, 흐름만 보면 간단해보인다.(처음에는 더 복잡했는데 줄이고 압축하다보니 플로우가 줄었다.)지워야 할것같은건 다 지웠다. 현재 oozie의 워크플로우다. hive script로 sql을 실행하고, 그 아래의 shell은 현재 서버에서 다른 하둡서버로 distcp를 이용해 데이터를 쏜다. 그리고 작업이 성공적으로 끝나면 finish_successfully라는 스크립트를 실행시키는데, 내부에 슬랙으로 메시지를 ..