2018/05 4

python hive 관련 삽질

hive에 관한 지식이 거의 없어서 막상 찾고보니 엄청나게 쉬운데 이거 찾느라 몇일간 헤맸다. 매번 하이브에 관한 작업을 할때 oozie workflow에 sql파일을 삽입하고 그걸 워크플로우에 넣고 실행시키는 방법으로 해왔는데, 이번에 oozie환경을 벗어나게 된다. 현재 돌아가는 oozie job들을 전부 옮겨가는 서비스의 job들로 바꿔야하는데 사실 너무 귀찮았다. big data에 관련된 팀이 저 서비스를 관리하는데 관리 향상성 등을 위해서 옮겨간다고 하면 유저인 우리로서는 당연히 바꿔야 한다. 서비스를 하나하나 옮기는 고민을 하면서, 애초에 우지 워크플로우에 등록하는것보다 파이썬 등으로 하이브에 접속해서 특정 하이브 쿼리를 실행시키는 스크립트를 만들고, 크론탭 등으로 자동화를 해놓았으면 굳이 우..

data engineering 2018.05.11

하둡 에코시스템 관련 레퍼런스 사이트.

https://data-flair.training/blogs/apache-hive-metastore/ 빅데이터 관련된 일을 하면 하이브나 스파크를 만지는데.. 전문적으로 대학원 등에서 배우고 오지 않는 경우 그냥 현장에서 생 삽질을 해야 한다. 전문적으로 DW나 DE쪽 일을 하지는 않지만 이왕 쓰는거 확실하게 알고 싶어서 하둡이나 스파크 관련 책을 몇권 구입했었는데, 전반적인 하둡 에코시스템이라던지, 구조 등에 관한 내용은 찾기가 어려웠다. 또는 하이브에서 메타스토어가 로컬이나 리모트 등 어떻게 생겼는지 전반적으로 머리에 그림이 안그려졌다. 매번 구조는 안개속에 있고, 그 안개속에 하루종일 테스트로 찔러봐서 나온 결과를 바탕으로 안개 속을 추측하는 기분이어서 되게 찜찜했다.(그렇다고 이런것만 설명해 주는..

data engineering 2018.05.04

2018-05-02 수요일

사내의 배드민턴 동아리를 갔다 왔다. 진짜 배드민턴장이 조금 멀다는 것만 제외하면 너무너무 좋다. 땀나는것도 재밌고 배드민턴치는것도 재밌다. 근데 몇번 나가보고 느낀건 난 그냥 재미로 배드민턴 치러 갔는데 나빼고 다른 맴버들은 진짜 엄청나게 열심히(잘) 한다는거... 배드민턴 1:1 레슨을 받는 맴버도 꽤 많고; 레슨을 받지 않는 맴버는 기본적으로 엄청 잘 친다. 난 평균이라고 생각했었는데 그게 아니라 쭈그리였다. 배드민턴 클럽을 들고 영어수업을 나가니 여기저기 팀에서 이름만 보던 사람들 많이 만난다. 채널에서 맨날 도움을 청하기 위해서 부르던 이름만 알던 사람이 나오고, 영어수업 같이 듣는 사람의 동료가 나온다. 되게 신기했다. 동기중에 한명이 벌써 진급을 했다. 이제 입사한지 1년하고 4개월째인데 엄..