2017/07/14 2

expect

맥이나 리눅스로 작업을 하다 보면 회사등에서 ssh를 이용해서 서버로 접속하는 경우가 많다. 나같은 경우 종종 프로그램이 잘 도는지 특정 서버로 접속을 해야 하는데, 이 과정이 너무 번거롭다. ssh로 0번 서버에 접속 후, 다시 거기서 1번 서버로 접속 후, 다시 거기서 2번 서버로 접속하고, 그 이후에 특정 계정으로 로그인을 한 다음 작업을 시작한다. 종종 작업을 위해 접속하는 날도 있지만 단순히 모니터링을 위해 들어가는 날은 저 일련의 과정이 너무 귀찮다. ssh를 하나하나 치는것도 일이지만 서버 주소가 많다보니 기억을 잘 못해서 매번 페이지에서 찾아서 들어가기 때문이다. 그래서 인터넷에서 자동화 스크립트를 찾아봤다. 자동적으로 ssh로 0번서버, 1번서버, 2번서버로 접속후 특정 계정으로 로그인해..

spark로 hive 쿼리 실행시키기.

하이브보다 스파크에서 하이브 쿼리를 실행시켰을때 속도가 더 빠르다.(당연하겠지만) 대신 스파크는 리턴값의 크기 등을 모르기 때문에 프로그래머도 모르게 메모리 초과 오류 등이 날수 있다는점이 안좋다. 시간이 그닥 안중요하고, 안정성이 중요 -> 하이브 쿼리.시간 단축(성능 향상)이 목표, 자원은 충분, 그대신 안정성을 약간 포기 -> 스파크로 돌리기. 아래는 코드만. #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib2 from redis import Redis import sys import re import json from datetime import datetime import time from slacker import Slacker from..

data engineering 2017.07.14