2020/10 4

airflow 삽질

몇일전에 spark etl을 제작했고, 이걸 배치잡으로 돌린다는 글을 적었었다. link도커로 하는건 아직 뭐가 문제인지 이유를 못찾았고, 이유를 못찾았다는 이유로 그냥 크론탭에서 계속 돌아가도록 놔둘수 없기에 생각해보다가 airflow에서 돌리기로했다. 처음엔 rancher에서 kubernetes airflow app을 만들어서 거기다가 내 전용으로 따로 올려볼까 하다가 idc에서 돌아가는 airflow서버가 하나 있어서 거기에 올리기로 했다. kubenetes airflow로 올리려다가 만 이유는 dag파일을 커스터마이징하기가 힘들기 때문이다.bitnami의 airflow가 계속 최신에도 업그레이드되고 있어서 이걸 쓰려고 했는데 (bitnami airflow) dag 추가하는부분을 찾아보면 3가지 방..

data engineering 2020.10.20

hadoop echo system의 기반지식 hadoop, zookeeper, yarn등 정리

하둡 에코 시스템을 회사에 들어와서 처음 사용해보는데, 회사에서는 당연히 실질적으로 필요한 지식인 스파크, 카프카 이런것들만 어떻게 설치해서 사용해왔다. 근데 이제 어느정도 여유가 생기니까 기반 지식들이 부족하다 보니 공부해야 할 필요성을 느꼈다.왜 스파크는 하둡 위에서 돌아가는지, 왜 카프카는 주키퍼라는게 필요한지. yarn은 또 뭔지. 마치 c언어로 어떻게 프로그래밍을 하는데 내부에 포인터가 어떻게 어떻게 주소를 참조하는지 등 하나도 모르고 그냥 되니까 코딩하는 느낌이라.. 기반 지식에 대해 공부를 좀 더 하기 위해서 글들을 찾아보고 정리한다. 0. hadoop이란 무엇인가. https://dongvelopment.tistory.com/47, https://rachelsdotcom.tistory.co..

data engineering 2020.10.11

make simple spark docker image

이전 글에서 spark관련 etl을 만들었다. 하루마다 돌려야 하는 배치잡인데 내가 스파크를 설치한 서버에서 크론탭을 걸어서 돌리면 나한테는 가장 편하겠지만 이러면서버에 너무 종속적이다. 스파크가 설치된 idc서버가 교체가 일어난다던지, 하면 스파크를 다시 새로 깔고 jar들을 다운받고 세팅을 다시 처음부터 끝까지 다시 해야 한다. 어쨌든 요즘은 쿠버네티스로 자원 컨트롤링을 하고 도커 쓰는건 대부분 기본인 시대이기에 도커 이미지로 만들어보기로 했다. 처음에 이미 만들어진 도커 이미지를 사용할까 생각했는데 ex) https://hub.docker.com/r/bitnami/spark/ 저번에도 적었지만 스파크 3버전에 하둡 3.2버전을 동시에 충족하는 이미 만들어진 스파크 도커 이미지가 없는것같아서 그냥 처..

data engineering 2020.10.09