내용 |
WordCount.jar 파일과 데이터파일(speech.tar.gz)이 필요하다.
WordCount.jar, speech.tar.gz 파일을 ~/lab 디렉토리에 다운로드 한다.
$ mkdir ~/lab
$ cd ~/lab
$ wget -O WordCount.jar http://javaspecialist.co.kr/pds/249
$ wget -O speech.tar.gz http://javaspecialist.co.kr/pds/250
$ tar -xf speech.tar.gz
클러스터를 실행한다.(nodemanager와 historyserver를 실행해 놓는다)
$ cd $HADOOP_HOME/sbin
$ ./start-all.sh
$ ./yarn-daemon.sh start nodemanager
$ ./mr-jobhistory-daemon.sh start historyserver
HDFS에 데이터 업로드 디렉토리 생성 및 데이터 파일 업로드
$ hdfs dfs -put ~/lab/speech/ /
워드 카운트 예제 실행
$ cd ~/lab
$ hadoop jar WordCount.jar /speech/ /output/word_count
실행 결과 확인
$ hdfs dfs -ls /output/word_count
$ hdfs dfs -cat /output/word_count/part-r-00000
$ hdfs dfs -cat /output/word_count/part-r-00000 | head -10
$ hdfs dfs -cat /output/word_count/part-r-00000 | tail -10
|