Hadoop install

Hadoopを試してみたいので、手元にインストールしてみる。
環境はCentOS release 4.7。

jdk6のインストール

http://java.sun.com/javase/downloads/widget/jdk6.jspからjdk-6u20-linux-i586.rpm.binをダウンロードしておく

sudo su
cd /usr/local/src
chmod 744 jdk-6u20-linux-i586.rpm.bin
./jdk-6u20-linux-i586.rpm.bin

で、規約を見てyes。

環境変数を設定。

export JAVA_HOME=/usr/java/jdk1.6.0_20
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

確認する。

java -version

インストール完了!

Hadoopのインストール

wgetして解凍するだけ。

cd
wget http://www.meisei-u.ac.jp/mirror/apache/dist/hadoop/core/stable/hadoop-0.20.2.tar.gz
tar xzvf hadoop-0.20.2.tar.gz
mv hadoop-0.20.2 hadoop

環境変数設定する。HADOOP_HOMEは必要かわかんないけど。

export HADOOP_INSTALL=/home/kotaro/hadoop
export HADOOP_HOME=/home/kotaro/hadoop
export PATH=$PATH:$HADOOP_INSTALL/bin

起動チェック

kotaro@~$ hadoop version
Hadoop 0.20.2
Subversion https://svn.apache.org/repos/asf/hadoop/common/branches/branch-0.20 -r 911707
Compiled by chrisdo on Fri Feb 19 08:07:34 UTC 2010

StandAloneモードで動作確認OK!

Pseudo-Distributed Operationモード

http://hadoop.apache.org/common/docs/r0.20.1/quickstart.htmlに従うだけでOK。
備忘のためにやったことを書いておく。

設定ファイル
conf/core-site.xml
conf/hdfs-site.xml
conf/mapred-site.xml
HDFS初期化&デーモン起動
$HADOOP_HOME/bin/hadoop namenode -format
$HADOOP_HOME/bin/start-all.sh
起動スクリプト

毎回、$HADOOP_HOME/bin/start-all.shするのは手間なので、自動起動設定する。

  • /etc/init.d/hadoop
#!/bin/sh
# chkconfig: 345 98 20
# description: Hadoop
# processname: Hadoop
#
case "$1" in
  start)
    su kotaro -c /home/kotaro/hadoop/bin/start-all.sh
    ;;
  stop)
    su kotaro -c /home/kotaro/hadoop/bin/stop-all.sh
    ;;
esac

あとはchkconfigするだけ。

chmod +x /etc/init.d/hadoop
chkconfig --add /etc/init.d/hadoop
chkconfig --list hadoop
NameNode監視とJobTracker

Hadoop管理ツールみたいなもん。名前のまんまの機能。
http://dev:50070/dfshealth.jsp
http://dev:50030/jobtracker.jsp
※devはhostsに設定してある内部サーバ