Outline Hadoop MapReduce VMUbuntu Hadoop Example wordcount Ubuntu

Outline • Hadoop簡介 – Map-Reduce架構 – VM安裝Ubuntu – Hadoop安裝&設定 • 參考

Example wordcount

Ubuntu安裝 • VM安裝ubuntu-10. 04. 4 -server-i 386. iso

Ubuntu安裝(續) • 設定hostname

Ubuntu安裝(續)

Ubuntu安裝(續) • Choose Open SSH server to install

Ubuntu安裝(續)

安裝jdk • 取得root權限 • 先取得軟體源，再安裝JDK – sudo apt-get install python-software-properties sudo add-apt-repository ppa: ferramroberto/java sudo apt-get update sudo apt-get install sun-java 6 -jdk

建立hadoop使用者 • 使用addgroup hadoop指令建立新的群組 • 使用adduser –ingroup hadoop指令新增使用者hadoop至hadoop群組中 • 使用vim /etc/passwd指令編輯passwd檔案

ssh免密碼登入 • 使用 su – hadoop指令切換使用者為Hadoop • 產生key – ssh-keygen –t rsa –P “” • 將 public key拷貝到遠端的電腦後, 加到該user的. ssh/authorized_keys 中 – cat /home/hadoop/. ssh/id_rsa. pub >> /home/hadoop/. ssh/authorized_keys • 離開切換回使用者root

Hadoop安裝 • 下載 hadoop-1. 2. 1 – wget http: //140. 116. 82. 153/~easer/hadoop-1. 2. 1. tar. gz • 移動至/usr/local 下解壓縮 – mv hadoop-1. 2. 1. tar. gz /usr/local – cd /usr/local – tar –xvf hadoop-1. 2. 1. tar. gz

Hadoop安裝(續) • 改變檔案擁有者 – chown –R hadoop: hadoop-1. 2. 1 • 製作捷徑到使用者hadoop的home下 – ln –s hadoop-1. 2. 1/ /home/hadoop • 刪除下載的檔案 – rm –rf hadoop-1. 2. 1. tar. gz

設定 interfaces • 先查看網卡編號 • ifconfig -a

• 使用 vim /etc/network/interfaces 指令修改 interfaces檔案

Hadoop設定 • • 使用 su – hadoop 指令改變使用者為Hadoop cd ~/hadoop or cd /usr/local/hadoop-1. 2. 1 使用vim conf/hadoop-env. sh指令修改檔案加入 export JAVA_HOME=/usr/lib/jvm/java-6 -sun 及 export HADOOP_OPTS=“Djava. net. prefer. IPv 4 Stack=true”

Hadoop設定(續) • 使用 vim conf/mapred-site. xml 指令修改檔案 • 加入圖示中之property

Hadoop設定(續) • • 使用 vim conf/masters指令修改masters檔案設定master僅有u 02 使用 vim conf/slaves指令修改slaves檔案設定slave僅有u 02

Hadoop設定(續) • 使用 bin/hadoop namenode –format 指令啟用namenode及查看設定 • 使用 bin/start-all. sh 開啟系統

Hadoop設定(續) • 使用 bin/hadoop dfsadmin –safemode leave 指令離開安全模式 • 使用 bin/hadoop dfs –mkdir input 新增input資料夾 • 使用 bin/hadoop dfs –lsr指令 • 編輯single. txt

Hadoop設定(續) • 編輯single. txt • 輸入一段文字以利使用example範例之wordcount程式 • bin/hadoop dfs –put single. txt input

Hadoop設定(續) • 使用bin/hadoop jar hadoop-1. 2. 1. example. jar wordcount input output指令執行wordcount

Hadoop設定(續) • 看結果 – bin/hadoop dfs –cat output/part-r-00000

Web interface • 修改windows中 C: WindowsSystem 32driversetchosts檔案 • 加入 192. 168. 56. 101 u 02 設定此IP為u 02

Web interface(續) • 打開瀏覽器網址輸入http: //192. 168. 56. 101: 50030/ 可察看job使用情形

新增node設定 • 在第一個node – 編輯/etc/hosts 增加node 2 的IP與hostname – 重新啟動網卡 – 編輯~/hadoop/conf/slaves 增加node 2的hostname • 在第二個node – 編輯/etc/hosts 增加node 2 的IP與hostname – 修改網卡設定指派node 2 的IP – 重新啟動網卡 – 編輯~/hadoop/conf/slaves 增加node 2的hostname

重新格式化與執行Hadoop • 因Node 1 為 master，故在Node 1操作 – 刪除 node 1 & 2 的Hadoop tmp資料夾 • rm –r ~/single/hadoop-hadoop – 格式化namenode – 啟動hadoop

編譯程式 • 下載 – 原始碼 Word. Count. java • wget http: //140. 116. 82. 153/~easer/Word. Count. java – 編譯檔Makefile • wget http: //140. 116. 82. 153/~easer/makefile – Input 資料 • • • wget http: //140. 116. 82. 153/~easer/textfile ~/hadoop/bin/hadoop dfs –mkdir input 2 ~/hadoop/bin/hadoop dfs –put textfile input 2/ make clean make

參考 • http: //www. youtube. com/watch? v=Vf 1 HD 4 Tj MDM&list=UUbl. Z 4 z. Ywg. Bx 2 j_B 4 ci. TJMfg&i ndex=40&feature=plcp • http: //en. wikipedia. org/wiki/Apache_Hadoop • http: //hadoop. apache. org/ • http: //www. slideshare. net/waue/hadoop-mapreduce-3019713