Hadoop

memo:
Hadoopとは
Hadoopは、大きく分けてMapReduceHDFSで構成されている
MapReduceとは、Hadoopで処理を記述するプログラミングモデルです
 特徴:シンプルで、さまざまな処理に柔軟に対応できる

MapReduce=Map+Shuffle+Reduce(3つのフェイズ)
ユーザ側:map関数、reduce関数に行いたい処理を記述
内部自動:Shuffleフェイズ

Map:

Shuffle:同じKeyを持つペアを束ねる
(自動的にMapからReduceにデータを渡す)

Reduce:Shuffleの結果を入力として処理


HDFSとは、MapReduceで処理するデータを扱う分散ストレージで、複数のマシンを1つのストレージとして扱える

■使う場面
MapReduceを使って、数時間以上かかるようなバッチ処理を複数マシンに分散して、高速化できる。
つまり、1台だと少なくとも数時間以上かかるような、大量のデータを読み込んで解析する処理、大量の計算が必要な処理に向いていると...

簡単に言うと→データを分散して高速化を目指す?

■その他情報
Hadoopといえば米Cloudera
http://www.cloudera.com/

・CDH
→ Cloudera's Distribution including Apache Hadoop

・日本におけるHadoopといえば「Asakusa」

■参考サイト
http://www.atmarkit.co.jp/fjava/rensai4/hadoop_tm01/01.html
http://saburi380.blogspot.com/2009/11/1hadoop30ubuntucloudera.html