hadoopの擬似分散環境をローカル環境に構築します。
「Hadoopをサクッと動かして学習したい」という自分の要望のために作りました。
構築はSampleを動かすところまでです。
以下のものをインストールしてください。
VirtualBox 4.2.18
(Mac OS X 10.8.2) で動作確認済み- https://www.virtualbox.org/wiki/Downloads
Vagrant 1.4.3
(Mac OS X 10.8.2) で動作確認済み- https://www.vagrantup.com/downloads.html
Vagrant Plugin であるvagrant-omnibus
をインストールしてください。
$ vagrant plugin install vagrant-omnibus
適当な場所にgit clone
してください。
$ git clone https://github.com/at-grandpa/local-hadoop.git
下記コマンドで全て立ち上がります。
$ cd local-hadoop
$ vagrant up
setup中は最大約300MBのファイルをダウンロードします。
この場合、ダウンロードがとても遅いです。(おそらく1時間以上かかります)
別途ブラウザでダウンロードしておくことをお勧めします。
以下、別途ダウンロードする際の手順を記します。
最低でも Vagrant Box File のダウンロードをお勧めします。
全ファイルを予めダウンロードしておけば、約5分ほどで立ち上がります。
(ネット環境によります)
以下のURLより適当な場所にダウンロードしてください。
- http://cloud-images.ubuntu.com/vagrant/raring/current/raring-server-cloudimg-amd64-vagrant-disk1.box
vagrant box
コマンドにて、boxを登録します。
$ vagrant box add ubuntu13.04_amd64 /path/to/raring-server-cloudimg-amd64-vagrant-disk1.box
以上でVagrantのBoxファイルの登録は完了です。
この時点でvagrant up
を行っても、多少は短い時間で立ち上がります。
(それでも30分近くかかります)
以下のURLよりダウンロードしてください。
ダウンロードしたファイルはgit clone
したlocal-hadoop
ディレクトリ直下に置いてください。
$ cp /path/to/jdk-7u51-linux-x64.tar.gz /path/to/local-hadoop
以下のURLよりダウンロードしてください。
ダウンロードしたファイルはgit clone
したlocal-hadoop
ディレクトリ直下に置いてください。
$ cp /path/to/hadoop-1.2.1.tar.gz /path/to/local-hadoop
以下のURLよりダウンロードしてください。
ダウンロードしたファイルはgit clone
したlocal-hadoop
ディレクトリ直下に置いてください。
$ cp /path/to/mahout-distribution-0.9.tar.gz /path/to/local-hadoop
以下のURLよりダウンロードしてください。
ダウンロードしたファイルはgit clone
したlocal-hadoop
ディレクトリ直下に置いてください。
$ cp /path/to/hive-0.12.0.tar.gz /path/to/local-hadoop
立ち上がったら、local-hadoop
ディレクトリに移動し、以下のコマンドでVMにログインしてください。
$ vagrant ssh
VMにログインしたら、以下のコマンドで Hadoop の Sample プログラムを実行できます。
[VM] $ hadoop jar /usr/local/hadoop-1.2.1/hadoop-examples-1.2.1.jar pi 10 10
これは円周率の計算を行っています。
他にも Sample はあるので、以下コマンドで Sample List を眺めてみてください。
[VM] $ hadoop jar /usr/local/hadoop-1.2.1/hadoop-examples-1.2.1.jar
up.sh
、provision.sh
は、vagrant up
とvagrant provision
のコマンドの実行時間を計測するものです。