2019/02 3

2019-02-27 수요일.

지나가다 요즘 개발자의 수요가 많이 부족하다는 소리를 주위에서 많이 들었다. 물론 일정 이상의 실력이 있는 개발자다. 한국의 s급 개발자들을 해외의 유명 기업들이 데려가고 있다는 기사도 나오고 있는데, 내가 언급한 개발자는 꼭 s급이 아니라 a,b++급정도만 되어도 현재 본인의 가치보다 더 높게 취급받을수 있는 시대인것 같다. 우리 회사뿐만이 아니라 다른회사에 있는 지인들도 동일한 소리를 한다고 한다. 근데 뭐.. 나같은 s급이 아닌 저년차 주니어들은 그냥 회사에서 내 가치를 잘 알아주기만을 기다리는 수밖에 없는것같다. 이직 선택권이 없는 저연차엔 애초에 좋은 리더를 만나서 가치를 인정받는것도 엄청나게 행운인것중의 하나인것같다.생각하기에 이러한 현상이 몇년정도는 더 갈것같으니 이럴때 더 열심히 해둬야 몸..

spark processing parquet file from s3 with pass credentials.

회사 내에 Amazon emr cluster서버가 있고, 현재 데이터 백업용으로 s3를 쓴다. ec2의 이슈 때문에 데이터가 날라가서 데이터를 s3에서 가져와서 다시 내 몽고디비 서버에 넣어야 했다. 새로 삽질한 경험을 적어놨다. 처음엔 단순히 내 서버에 spark를 설치 후 s3에서 데이터를 가져와 돌리려고 했다. 서버에 스파크를 설치하고, s3 parquet데이터를 가져오는 방법을 찾아보았더니 아래처럼 되었다. parquet은 파일 저장 포맷중 하나라고 한다. (https://spark.apache.org/docs/latest/sql-data-sources-parquet.html) from pyspark.sql import SparkSession spark = SparkSession.builder \..

data engineering 2019.02.17

download s3 folder recursively

현재 s3구조다. python boto3로 디렉터리를 다운받는 코드를 짰다. https://stackoverflow.com/questions/8659382/downloading-an-entire-s3-bucket 를 보면 콘솔로 자동으로 다운로드하는 방법이 나와있다. 구조가 위처럼 좀 복잡하고, 파일 하나당 크기가 크고, 하나 다운받고 하나 처리하는 방식으로 갈거여서 (사실 boto3를 이용하는게 조금 더 많이 익숙해서, aws configure를 서버에 설정하기 싫어서, 다운로드시 어떻게 동작할지 테스트하기 귀찮아서..) 짰다. https://stackoverflow.com/questions/31918960/boto3-to-download-all-files-from-a-s3-bucket/31929277..

data engineering 2019.02.14