2021/10 4

customizing spark helm chart

이번에 쓸 글은 spark자체를 커스터마이징 한다기보다 삽질과, bitnami spark helm chart를 구성하는 것들을 살펴보는데 중점을 둔 글입니다. 전에 쓴글 중에 https://qkqhxla1.tistory.com/1164?category=698045 에서 스파크에서도 airflow와 python 세팅이 동일해야 하는 이유를 적었었다.(spark의 python udf 사용 불가능) 최근에 회사에서 이슈가 있어서 k8s 서버를 통째로 옮겨가야 할 일이 생겼다. 랜쳐도 새로 설치했고, 내부의 App들을 옮기는 중인데 spark를 옮기던 도중 지금이 spark에 airflow와 같은 python 버전을 적용해야 할 적기라고 생각해서 세팅한다. 우선 내부의 파이썬 버전을 바꾸기 위해서는 기본적으로 ..

data engineering 2021.10.25

redash, +kibana와 비교

최근에 새로 들어오신 분에게서 redash라는걸 알게되었다. redash는 kibana나 grafana처럼 데이터 시각화 툴이다. 나는 주로 키바나를 사용하는데, 키바나보다 사용법은 훨씬 직관적이고 쉬웠다. 다만 구조가 다르고, 장단점이 확연히 존재하였다. redash를 가볍게 사용하고 느낀점을 정리한다. 일단 redash tutorial링크 : https://redash.io/help/user-guide/getting-started 키바나의 시각화 과정을 가볍게 그리면 아래와 같다. 가볍게 이런식이다. DB에서 파이썬이나 자바로 내가 원하는 형태로 데이터를 가공해서 es에 저장할수 있고, 이 1차적으로 가공된 데이터를 기반으로 2차적으로 가공을 해서 키바나에서 시각화를 할 수 있다. redash의 동작..

data engineering 2021.10.16

pyspark when does python used in spark 'worker'

apache spark를 쓰는데 리모트 환경에서 submit하는 환경이면 주의해야할게 상당히 많았다. 예로 1. spark submit하는곳과 spark server의 버전이 같아야 한다. 메이저 버전이 같으면 호환되는 경우도 있는데 호환 안되는 경우도 많다.. 2. spark submit을 리모트 서버의 도커에서 하는 경우 네트워크를 호스트와 동일하게 해주거나, 도커의 포트 설정을 추가로 해줘야 한다. 이전글 : https://qkqhxla1.tistory.com/1138 등이 있었다. 위의 방법들이 그닥 선호되는 방법은 아니어서 최근에는 일반적인 방법으로 사용해보려고 airflow를 세팅해서 그 안에 스파크를 submit용으로 설치해서 리모트 스파크 서버에 호출해서 쓰는 방법으로 사용하고 있다. 그리..

data engineering 2021.10.14

about self signed certificate(ssc), apply my ssc to rke

인증서에 대해 아는 지식이 거의 없어서.. 이번에 self signed certificate를 만들면서 알게된 내용을 정리함. 여기저기 찾아보고 정리하긴 했는데 확실하지 않은 정보가 좀 있어서 틀린부분 있으면 지적해주시면 정말 감사하겠음.. 읽을거리(개념정리용) : https://m.blog.naver.com/alice_k106/221468341565 대부분의 내용 참조함.(실습용) : https://www.lesstif.com/system-admin/openssl-root-ca-ssl-6979614.html 추가 읽을 거리(영어 버전) : https://phoenixnap.com/kb/openssl-tutorial-ssl-certificates-private-keys-csrs 일단은 개념정리를 먼저 하..

data engineering 2021.10.09