Hadoop - fisherの日記

memo：
■Hadoopとは
・Hadoopは、大きく分けてMapReduceとHDFSで構成されている
→MapReduceとは、Hadoopで処理を記述するプログラミングモデルです
　特徴：シンプルで、さまざまな処理に柔軟に対応できる

MapReduce＝Map＋Shuffle＋Reduce（3つのフェイズ）
ユーザ側：map関数、reduce関数に行いたい処理を記述
内部自動：Shuffleフェイズ

Map:

Shuffle:同じKeyを持つペアを束ねる
(自動的にMapからReduceにデータを渡す)

Reduce:Shuffleの結果を入力として処理

→HDFSとは、MapReduceで処理するデータを扱う分散ストレージで、複数のマシンを1つのストレージとして扱える

■使う場面
MapReduceを使って、数時間以上かかるようなバッチ処理を複数マシンに分散して、高速化できる。
つまり、1台だと少なくとも数時間以上かかるような、大量のデータを読み込んで解析する処理、大量の計算が必要な処理に向いていると...

簡単に言うと→データを分散して高速化を目指す？

■その他情報
・Hadoopといえば米Cloudera
→http://www.cloudera.com/

・CDH
→ Cloudera's Distribution including Apache Hadoop

・日本におけるHadoopといえば「Asakusa」