2019/01 3

hive external table, partitioning

나만 여기서 처음 이런식의 구조를 봤는지 모르겠다. hive에는 internal table과 external table이 있다. 현재 시스템의 일부 데이터 파이프라인의 구조다.몽고디비 -> csv -> hdfs 로 csv업로드 -> 하이브 이런식으로 파이프라인이 있는데, csv를 hdfs에 올리는 과정에서 계속 이슈가 생겼다. 다른 큰 잡들이 돌아가다 보니 csv를 hdfs로 업로드하는데 문제가 생겨서, 몽고디비 -> csv -> aws s3 -> 하이브 이런식으로 파이프라인을 변경하기로 했다. 하이브에서는 어떻게 s3의 데이터를 가져갈까 생각했었는데 external구문으로 외부의 데이터를 가져와서 테이블을 만들수 있었다. s3에 데이터를 넣을때는 여러 버킷이 아닌 한 버킷에 데이터를 정리하기 위해 버킷..

data engineering 2019.01.28

취업을 위한 알고리즘 공부법.

자소서 : http://qkqhxla1.tistory.com/797 면접 후기 : http://qkqhxla1.tistory.com/799 내가 한 공부들과 방법 : http://qkqhxla1.tistory.com/802 취업을 위한 알고리즘 공부법 : http://qkqhxla1.tistory.com/990 데이터 엔지니어 경력 5년 이직준비 후기 : https://qkqhxla1.tistory.com/1193 아래에 적을건 취업용 알고리즘 공부 방법입니다. 제가 2년 반 전(2016년 6월쯤)에 공부했던 방법이니까 현재도 유용할거에요. 굳이 취업용이라고 적은건 대회에 나갈 정도까지 심화해서 공부해본적이 없었기 때문에 취업용이라고 적었어요. 그리고 이 글을 보는 사람들 대부분이 취업용으로 알고리즘 공..

private/memo 2019.01.10

Breaking Wechall Crackcha using tensorflow(keras) 2. training and testing the data.

http://qkqhxla1.tistory.com/988 에 이은 글. 이젠 데이터를 트레이닝하고 테스트할 차례이다. 그전에 이전 글의 클래스를 가져왔다. import numpy as np import cv2 import requests import queue import os import string download_image_name = './image/problem.png' first_preprocessed_name = './image/problem1.png' after_bfs_dot_remove_name = './image/problem2.png' class SiteHandler: def __init__(self): self.header = {'Cookie': 'WC=11107310-13590-T..