Hadoop
memo:
■Hadoopとは
・Hadoopは、大きく分けてMapReduceとHDFSで構成されている
→MapReduceとは、Hadoopで処理を記述するプログラミングモデルです
特徴:シンプルで、さまざまな処理に柔軟に対応できる
MapReduce=Map+Shuffle+Reduce(3つのフェイズ)
ユーザ側:map関数、reduce関数に行いたい処理を記述
内部自動:Shuffleフェイズ
Map:
Shuffle:同じKeyを持つペアを束ねる
(自動的にMapからReduceにデータを渡す)
Reduce:Shuffleの結果を入力として処理
→HDFSとは、MapReduceで処理するデータを扱う分散ストレージで、複数のマシンを1つのストレージとして扱える
■使う場面
MapReduceを使って、数時間以上かかるようなバッチ処理を複数マシンに分散して、高速化できる。
つまり、1台だと少なくとも数時間以上かかるような、大量のデータを読み込んで解析する処理、大量の計算が必要な処理に向いていると...
簡単に言うと→データを分散して高速化を目指す?
■その他情報
・Hadoopといえば米Cloudera
→http://www.cloudera.com/
・CDH
→ Cloudera's Distribution including Apache Hadoop
・日本におけるHadoopといえば「Asakusa」
■参考サイト
http://www.atmarkit.co.jp/fjava/rensai4/hadoop_tm01/01.html
http://saburi380.blogspot.com/2009/11/1hadoop30ubuntucloudera.html