RubyでHadoopをラップ、分散処理ツールキット

MRToolkitは、すでに稼働しているクラスタ上のHadoopと合わせて使うことでRubyで容易にMap/Reduce処理を記述することができる一種のラッパー.ログからIPアドレス別集計を作る処理

require 'mrtoolkit'
class MainJob < JobBase
def job
mapper CopyMap
reducer UniqueCountReduce
indir "logs"
outdir "ip"
end
end

こういう処理はRubyが得意だ.