data engineering

하둡 에코시스템 관련 레퍼런스 사이트.

qkqhxla1 2018. 5. 4. 08:47

https://data-flair.training/blogs/apache-hive-metastore/


빅데이터 관련된 일을 하면 하이브나 스파크를 만지는데.. 전문적으로 대학원 등에서 배우고 오지 않는 경우 그냥 현장에서 생 삽질을 해야 한다. 전문적으로 DW나 DE쪽 일을 하지는 않지만 이왕 쓰는거 확실하게 알고 싶어서 하둡이나 스파크 관련 책을 몇권 구입했었는데, 전반적인 하둡 에코시스템이라던지, 구조 등에 관한 내용은 찾기가 어려웠다. 또는 하이브에서 메타스토어가 로컬이나 리모트 등 어떻게 생겼는지 전반적으로 머리에 그림이 안그려졌다.


매번 구조는 안개속에 있고, 그 안개속에 하루종일 테스트로 찔러봐서 나온 결과를 바탕으로 안개 속을 추측하는 기분이어서 되게 찜찜했다.(그렇다고 이런것만 설명해 주는것도 없고. 아니 없는줄알았다.) 내가 차라리 관련 일을 하면 불타는 열정으로 공부할텐데 스파크 서버나 그런걸 구성하는게 아니라 사용만 하는 user의 입장이라서 이해를 하지 못하는 경우도 많은 것 같다. 특정 하이브, 스파크 관련 잡(?)을 매번 실행하려고 하는데 현재 일에 대해서는 해결이 가능하나, 이걸 또 이러한 해결방법말고 나만의 방법으로 하려고 하면 안되었다. 삽질을 하다 위의 사이트를 발견했는데 기본적으로 읽어볼 내용들이 너무 좋을것 같아서 공유한다.(목차만 봤음)