ApacheHadoopとSpark自分メモ

もう結構前からやろうやろうと思っていたのですが
TensorFlowのほうも手を出したりして結局どちらも中途半端・・でも
今までつまずいた部分は忘れずにメモ。

activator runでエラーがでる。

jdkの代わりにjreを使っているとだめっぽい(stackoverflow)。結局jdk再インストールしてJAVA_PATHも指定し直さないとだめ(/usr/libexec/java_home

sparkのインストールと経過

OS Xはやはりbrewで入れられるならそれが一番よいので、

ただ、spark-shellをあれこれしているとspark-submitというコマンドが反応しないことがあるので、その場合は
unset SPARK_HOME && spark-submit
というおまじない的なので対処している。(qiita:エラーが出た時の対処)

あと結局sbtもインストールすることになる。
brew install sbt

実例がほしい

まずは公式(QuickStart, Programming Guide)をさらっと通した(といいつつかなり時間がかかっている)、何かもうちょっとだけ実用に近いようなものを・・というところでは


↑チュートリアルのkuromoji*.zipだけgithubにはないようなので、atilikaのサイトからダウンロードする。


このあたりがSpark, MLibってなんだろう 、というのもちょっと説明しながらで良いかな・・と思ったらWord2Vecというのが出てきてこれはこれでもっと掘り下げたいところでもう少しScalaとSparkというところにフォーカスしたかったので一旦動作確認しただけ・・

2時間くらいかかった。

あと検索していたらodsb2014というのがあってインフルエンザの流行データとか調べてて、それっぽい・・!とか思ったら環境構築が自分がやったのと微妙に違って面倒そうで(VMで提供してるっぽい)。これはまたあとでやろうと。


HDFSでやりたい


やはり、分散環境を作ってなんぼかな、と思ってちょうどDigitalOceanを使っていたので

https://dwbi.org/etl/bigdata/183-setup-hadoop-cluster

このあたりをやってみると
NameNode, DataNodeまではできて
hadoop fs -ls /
こんな感じのもできてHDFSクラスターもできてるぽいのでいいかな、と思ったら
次のEdgeNodeがうまくできない。(NoRouteToHostというエラーが出てしまう)


もっと手頃なのはMacBook内で解決することなのでは

と思って結局

brew install hadoop

これが一番早そう(qiita)。

ちなみに、ここでハマる人がいるのかわからないのですが私はstart-yarn.shで微妙に数時間(実は半日)ほどはまりました。
例題に

hadoop jar hadoop-mapreduce-examples-2.2.0.jar wordcount someFile.txt /out

こんな感じに動作を確かめるのがあって

sbin/start-dfs.sh

こっちはいいのですが、

sbin/start-yarn.sh

こっちがResourceManagerを起動してくれない。
いつものようにStackOverflowを調べて設定ファイル側のxmlとかを修正するほうを一生懸命調べていたのですが
よくエラーメッセージを見ていたら

nohup can't detach from console

というのが出ていてtmuxのせいということがわかりました・・







コメント