masayuki5160's diary

名古屋でエンジニアしてます。

Hadoop streamingでアクセスログ解析

アクセスログ解析をするのにHadoop streamingをつかってといろいろ試しています。
Hadoopのセットアップの仕方はググればできてきますし、
本に書いてあることまんまでいけるので割愛します。

何冊かHadoop関連の本をよんでみて、
はじめて読むときに読みやすいのはこれかなと思います。

Hadoopファーストガイド

最近だと改訂版のHadoop徹底入門もよかったです。

Hadoop徹底入門 第2版 オープンソース分散処理環境の構築

新品価格
¥4,104から
(2017/3/19 15:17時点)

でもはじめは上記のHadoopファーストガイドが個人的にはわかりやすかったです。



いろいろ本で勉強をしてみてHadoop streamingがアクセスログ解析には良さそう?と思い必要なプログラムを書いてみました。

やりたかったのはアクセスログからリファラーとリンク先を取り出したいだけ。
正規表現で必要な部分をぶっこ抜くだけのプログラムです。

ちなみにrubyの正規表現についてわかりやすくまとまったサイトは下記です。
あんまりないのでほんと参考になりました〜
http://d.hatena.ne.jp/ntaku/20080424/1209026378


ためしに書いてみて解析はできそうだなーと感じてるんですが、
それよりもどういった仮説があって、そのためにどういったデータ解析をする必要があるのか考えるのが先だなと。。

つぎはそこについて考えていきます〜