masayuki5160's diary

名古屋でエンジニアしてます。

EMRでHadoop Streamingを試す

こちらのサイトを参考にEMRでHadoop Streamingを試してたんですが、2年も前の記事だったのでちょっと管理画面がかわってたりしました。

recipe.kc-cloud.jp


せっかく試したので新しい設定画面での設定まわりを画像付きでメモしておきます。
もちろんやってることはナレコムさんの記事と同じ内容です。


f:id:masayuki5160:20150510194926p:plain

クラスター名、ログの吐き出し先S3バケットを設定。

f:id:masayuki5160:20150510194931p:plain



f:id:masayuki5160:20150510195004p:plain

f:id:masayuki5160:20150510194935p:plain

Hadoopで使用するインスタンスの設定をもろもろ。


f:id:masayuki5160:20150510195017p:plain

f:id:masayuki5160:20150510195022p:plain

f:id:masayuki5160:20150510195028p:plain

このあたりがちょっとわかりにくかった。
セレクトタブで使いたい機能を選択して"Configure and Add"を選択すると詳細設定画面がひらく、わかりにくいw


ちなみにスクリプトや参考サイトはこちらにまとめてます。


AWS EMR動作テスト


というわけでとりあえず動かすのは簡単だった。
ただまだHadoopのことよくわからず使ってるので改めていろいろ調べねば、という感じ。
でもHadoop StreamingもEMRもいい感じだとわかった。