2017/08 9

크롤링시 데이터 찾는 방법 노하우.

어떤 사이트에서 크롤링을 할 경우에 다음과 같은 단계를 거친다.1. 해당 페이지를 구성하는 데이터들을 어디서 받을수 있는지 찾는다.2. 해당 페이지에 요청을 보내는 코드를 짠다.3. 페이지 정보 등을 가져온 후 (파이썬의 경우) beautifulsoup나 정규식을 이용하여 필요한 부분을 크롤링하여 자동화한다. 일정 횟수 이상 크롤링을 해본 사람들이 보기에 가장 어려운 부분은 1번 파트이다.(처음 시작하는 사람은 구현부인 2,3번이 가장 어렵다)2번이야 항상 똑같으니 됐고, 3번이야 프로그래밍 지식이나 센스만 있으면 간단하다. 하지만 1번은 우리가 데이터를 찾아야 하기에 힘들다. 그리고 api처럼 공식문서도 당연히 없다. 아래에 다양한 사례와 1번의 데이터를 조금 더 쉽게 찾을 수 있는, 또는 크롤링하는 ..

Python/2.7 for fun. 2017.08.30

2017-08-28 월요일

한국 돌아오자마자 뭔가 갑자기 바빠졌다. 현재 진행하고 있는 일의 요구사항이 갑자기 많아졌고 바빠서 잊어버리다 오늘은 예비군까지 갔다 왔다. 나름 기술블로그로 시작했는데 요즘 너무 기술에 관해서 잘 안 쓰고있는것 같긴 하다... 크롤링을 나름 여러가지 사이트를 뒤지면서 깨달음을 몇개 얻어서 그것에 대해서 정리를 하고 싶은데 일이 많아서 짬이 안난다. 퇴근후에는 운동해야돼서 시간이 없고. 일단 비밀글로 하나 만들어놓은다음에 다시 나중에 짬짬히 쓰던가 해야겠다. 일이 많다는건 좋은것 같다. 중간에 텅 비었던 시기가 있었는데 그땐 뭔가 되게 심심해서 죽는줄 알았다. 애초에 엄청나게 미치도록 바쁜 부서가 아닌 이상 일이 적당량 있다는건 좋은것 같다. 월급루팡 체질이 아니라 가만히 있으면 뭔가 불안하고 심심하다...

2017-08-18 금요일

아쉽다. 이제 내일이면 다시 한국으로 돌아간다. 마지막 날이라 일이 잘 잡히지 않았다. 마지막이라 안마의자 체험 많이 하고(이건 진지하게 부모님한테 하나 사드릴까 고민중이다.) 아이스크림까지 먹고 왔다. 다행히 여기저기 돌아다니면서 얼굴도장을 많이 찍어 두고, 친한척을 많이 해서 간다고 인사할때 꽤 많은 사람한테 인사할 수 있었다.2주가 딱 짧지도 않고 길지도 않고 적당한것 같다. 더 길어지면 주변에 뭔가 사람이 없어서 심심해졌을것 같지만 아쉽기는 하다. 하나하나 인사하면서 한국으로 출장오라고 했는데 허허 웃으면서 계획에 아직 없다는걸 보니 기회가 되면 내가 또 와야 할것 같다. 여기 담당하시는 높은분과 이야기를 하고, 마지막으로 회사를 나왔다. 마지막 날에도 어딜갈까 생각하다가 스탠포드 대학교를 가보기..

2017-08-15 화요일

드디어 큰 거 하나가 끝났다. 출장 온 이유가 업무공유라는 측면도 있지만, 주 임무는 이번에 우리가 한 업무성과를 보고하기 위한 자리였는데, 오늘 프레젠테이션을 끝냈다. 회사에서의 나름 첫 공식 프레젠테이션이 성공적으로 끝났다. 처음엔 슬랙으로만 보던 사람들이고, 모르는 사람들이라 좀 쫄았었는데 일주일 지나니까 이제 왠만큼 친해지고,(결정적으로 술먹은게 큼) 착한? 사람들이란걸 아니까 마음이 편해졌다. 첫 프레젠테이션인데 영어로 했다. 원래 통역끼고 하려고했는데 일주일 지내면서 캐나다에서 쌓았던 영어실력이 돌아왔다. 한국에서도 그냥 영어로 할수있음 하라고해서, 진짜로 그냥 했다. 많이 연습한게 도움이 되서 의외로 딱히 막히는 곳도 없고 질문도 잘 받고 나름 성공적으로 끝낸 것 같다. 기쁘다. 이제 미국에..

2017-08-13 일요일

10일에는 구글을 갔다 왔고, 11일은 페이스북을 갔다 왔다. 페이스북은 미쳤다. 페이스북 회사 안에 들어가려면 인증된 직원의 허가가 있어야 하는데, 우린 내 동료의 친구가 있었기에 들어갈 수 있었다. 페이스북에 들어간 순간 처음 느낀건 이건 회사가 아니라 페이스북 마을이다 였다. 거리 중앙에서는 돼지를 굽고 있고 바로 뒤의 상점에 가져다가 놓고 있었다. 그리고 페이스북 마을 안에 있는 사람들은 줄스면 공짜로 먹을 수 있다. 돼지, 소, 닭 등등 다양했는데 갓 바베큐한 돼지가 너무 맛있어보여서 돼지를 점심으로 먹었다. 그리고 페이스북 마을 안에는 음료가 담긴 냉장고가 밖에 있어서 그냥 마시고 싶으면 꺼내 마시면 된다. 전용 아이스크림을 파는 건물도 있어서 들어가서 줄 서서 먹고싶은거 고르면 베스킨라벤스처..

2017-08-10 목요일

점심시간에 구글에 갔다 왔다. 역시 인맥을 잘 쌓아두길 잘 했다. 게스트증을 받고 구글 주변을 돌아다녔는데 무슨 대학교 캠퍼스같이 생겼다. 점심이라서 큰 식당에 갔는데, 돈을 받질 않았다. 뭔가 자유롭게 개방하는 곳인것같았다. 놀란건 이게 몇개의 많은 식당 중에 하나라는거였다. 일반 백화점 등의 살짝 작은 푸드코드 크기였는데, 그냥 접시들고 가서 음식을 받은 후 아무 자리나 잡고 먹으면 되었었다. 장소나 그런것들은 둘째치고 생활을 들어보니 부러웠다... 책임근무제여서 낮에는 놀고, 밤에 일한다고 했다.(어떻게보면 뭔가 당연함) 낮에는 날씨가 좋으니 그냥 딩가딩가 놀고 밤에 일하고... 거기에 구글러들은 다른 지사에 가서 몇달동안 일하는것도 자유라고 한다. 원래 미국 구글에서 취업했어도 한국의 구글코리아 ..

2017-08-09 수요일

오늘은 시차 등 이제 좀 적응이 되었다. 밥을 먹으면서 왜 미국사람들중에 비만인 사람이 많은지 깨달았다. 어제는 정신이 하나도 없어서 그랬구나 했었는데 모든 음식에 지방이 많다. 넉넉하게 일어나서 호텔에서 나오는 조식을 제대로 살펴봤는데, 아침으로 치즈 여러 종류, 소스로 쓸수 있는 꿀과 크림이 기본으로 넉넉하게 제공되고, 시리얼은 설탕 투성이에 스크럼블에그는 한 덩이가 컸다. 그런데 역시 달고 맛있어서 그런지 거의 폭식으로 먹은것 같다. 원래 난 아침을 안먹는다. 항상 아점을 먹는 편인데 숙박하는곳의 아침은 공짜이기도 하고 너무 맛있어서 많이 먹었다. 회사에 이틀차 나가니 이제 조금 누가 누군지 알것 같다. 회사 내부에 커피를 직접 만들어먹는 기계가 있는데, 미국팀 사람중 한분이 만들어 먹는법을 가르쳐..

2017-08-08 화요일

드디어 실리콘벨리로 출장 왔다. 첫날에 안자고 버티다가 술 마시고 잔게 적중했는지 시차적응은 의외로 잘 되고 있다. 첫날에는 맨날 화상회의로만 얼굴 보던 사람들, 메신저로만 대화 나누던 사람들과 진짜로 만나니 신기했다. 또 우연히 시간 아다리가 잘 맞아서 원격으로 우리 팀과 회의하는 모습을 볼 수 있었다. 건물이 되게 예뻤다. https://www.google.co.kr/maps/place/Coupang/@37.4025867,-122.049183,3a,75y,90t/data=!3m8!1e2!3m6!1sAF1QipPUqeLBdHTgEn0g-pEmBfWfJm7hxaSyKZ4fgdeQ!2e10!3e12!6shttps:%2F%2Flh5.googleusercontent.com%2Fp%2FAF1QipPUqeLBdH..

2017-07-31 월요일

바쁘다. 큰 프로젝트가 하나 끝났어서 많이 여유롭게 보내고 있었다. 출장을 가게되면서 갑자기 뭔가 준비할게 많아졌고, 뭔가 별것 아닌것 같았던(별것 아닌줄 알았음.) ppt가 발목을 잡으면서 바빠졌다. 사실 다들 분위기가 그냥 가서 해~ 하길래 별로 중요한건 아닌가보다. 라고 판단했었는데 그게 아니었다. 갑자기 빡세져서 주말에 한번더 보고 있었는데 항공, 호텔, 렌터카 등등 예약도 해야 되어서. 갑자기 일이 몰렸다. 한번에 확 오기보단 당연히 일정 양의 일이 슬슬 들어왔으면 좋겠지만 현실은 그러지 않겠지..ppt를 하면서 조금 된 자료들을 찾아봐야 할 일이 생겼는데 문서작업의 위대함을 알았다. 저번에 오신 분이 오시기 전까지 팀에서 문서작업을 자세히 하는 편은 아니었다. 그런데 이분이 오시고, 문서작업이..