python에서 이런식으로 연다.

from pyspark import SparkConf, SparkContext

sconf = SparkConf().setAppName("PySpark")
....
sparkContext = SparkContext(conf=sconf)
path = 'hdfs://10.10.10.10:8020/a/b/c/aaa.csv'
f = sparkContext.textFile(path)

여기서 말하고 싶은건 path다. 외부에서 하둡 서버에 접근하는것처럼 hdfs://주소:포트/경로~

로 여태까지 열어줬는데, 이러면 단점이 있다. 하둡 서버를 다른 팀이나 사람들이 사용할 경우 서버 주소가 변경되면


매일 바꿔줘야 한다. (애초에 위처럼 path를 적는방식으로 연 이유가 저 방법밖에 몰랐었음.)


오늘 하둡 관리하는 팀이 서버를 업데이터하면서 주소를 바꿔줬는데 안되었다.. 짜증나서 찾다가 

https://stackoverflow.com/questions/27478096/cannot-read-a-file-from-hdfs-using-spark


요 글을 발견했다. path를 path='hdfs:/a/b/c/aaa.csv' 처럼 주면 서버 정보가 필요없다. 유익한 정보라서 적어놓음.

by qkqhxla1 2018.02.19 15:20