Hadoop - PukiWiki

配下のプロジェクト
- Hadoop Streaming ... PerlやPHP言語でMap/Reduceプログラムを作成
- Hadoop Hive ... SQL風言語でMap/Reduceプログラムを作成
- Hadoop Pig ... MapプログラムはPerl言語など、ReduceプログラムはPig Latinという独自言語で作成

連載：企業で使われるHadoop
- 第1回大量データのバッチ処理を高速化するHadoop
- 第2回 Hadoopがスケール・アウトする仕組み
- 第3回「データのライフ・サイクル」で考えるHadoopの使いどころ ... DBの種類による使いどころを丁寧に解説。RDBMS, KVS, Hadoopの使い分け
  - 図：RDBMS、Hadoop、KVSを組み合わせて使い分ける
- 第4回 Hadoopシステム構築のノウハウ

Hadoopによる分散データ処理

高まるHadoopの導入機運、日本のHadooperが集結

いま再注目の分散処理技術
- MapReduceのJava実装 Apache Hadoopを使ってみた

GoogleのMapReduceアルゴリズムをJavaで理解する

hadoop-ec2でアクセス解析してみたよ！

小さいファイルを処理する際には、サーバー間通信・プログラム起動などのオーバーヘッドの方が大きくなる

Hadoop構築支援サービス

平成２１年度産学連携ソフトウェア工学実践事業（高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンターの高信頼化に向けた実証事業））事業成果報告書 [PDF]

Hadoop と RDBMS の性能を比較してみた。という論文。の感想。の翻訳。

インフラエンジニアのためのHadoop情報

次世代版「Hadoop」開発を進めるヤフー

Hadoop and HBase vs RDBMS メモ

システム構成 †

導入事例

↑

Facebook †

FacebookによるHadoop, Hive, HBaseそして A/B Testingへの取組み

↑

eBay †

レイヤ	ツール
監視・アラート	Ganglia, Nagios
ツール・ライブラリ	HUE/Mobius, UC4, Oozie, Mahout
データアクセス	Pig, Hive, MQL
MapReduce?	Java, Pipes, Scala, Python
Hadoop Core	Hadoop, HDFS

↑

Twitter †

レイヤ	ツール
Data Products
Data Analytics	Java ME, Pig, Hive, Oozie
Data Input	Scribe, Crane
Data Formats	Elephant Bird, Hadoop-LZO
HDFS

Elephant-birdはlzo圧縮したデータをproto bufで圧縮して送る仕組み。In/OutFormat?, Pig, StoreFunc?など。

↑

ディストリビューション †

CDH3
- Distribution Details

クラウデラ、Hadoopディストリビューション最新版「CDH3」の一般提供を開始 ... 2011/4/13

↑

適用の仕方 †

↑

ファイルが小さい場合 †

MapReduce?で小さいファイルを1つにまとめる処理を定期的に走らせる
Hadoop Archives でディレクトリごとファイルをまとめる
- Hadoopアーカイブ

↑

構築事例 †

Hadoop〜Yahoo! JAPANの活用について〜
- JavaでMapReduce?を書くのはマシン語を書くようなもの
- Yahoo! Inc.のジョブの60%はPigで書かれている
- Yahoo! TechBlog (Hadoop)

楽天の事例から見えた「Hadoop」構築の誤解
- 現実的には、Hadoopを最適に動かすためのハードウェアは相応なスペックが必要になる
- データレプリカの配置が障害レベルに応じてきちんと分散された状態になるかどうかを意識する必要がある
- サーバをフル稼働させるために電力使用効率なども真剣に考える必要がある
- SQLに似た言語を用いてHadoopのMapReduce?処理が記述可能なHiveなどを活用すれば、マーケティング部門のメンバーにも使えるようになるかもしれない

ついに Apple も、Hadoop ユーザーになるようだ！

企業	プロセッサ数	データサイズ
Yahoo	4000	1.5PB
eBay	8500	16PB
NewYorkTimes?
Facebook
Twitter
Apple

企業システムにおける大規模データの活用と Hadoop の動向 [PDF]

↑

可用性向上 †

↑

0.20系 †

Linux-HAクラスタによるマスタノードの冗長化
- Hadoopを用いたクラスタコンピューティング環境の構築
- Hadoopを用いたクラスタコンピューティング環境の構築

メタデータのバックアップ
- 0.20系にはBackupNode?の機能がない。自分でNFSマウントとかしてローカルとマウント先の2箇所に書くような仕組みを作る必要あり

↑

0.21系 †

CheckpointNode?
BackupNode?

↑

Hadoopを気軽に試す †

↑

Amazon Elastic MapReduce? †

100台を1時間、1000円程度

↑

Google BigQuery? †

↑

環境構築 †

↑

自動構築 †

kickstart ... OSの自動インストールで使用
Puppet ... Hadoop関連の自動インストールで使用

↑

NameNode?の冗長化 †

Hadoop HA Configuration - Cloudera

↑

HDFS †

↑

開発 †

Java 開発 2.0: Hadoop MapReduce によるビッグ・データ分析

↑

開発ツール †

Karmasphere Studio

↑

Hadoop Streaming †

↑

運用 †

Hadoop運用

↑

チューニング †

↑

NameNode? †

HDFSのスケーラビリティ
- HDFS Scalability
- Scalability of the Hadoop Distributed File System

Block Sizeは128Mで運用
1ファイルは平均1.5ブロック(192MB)
NameNode?では、(1 file object + 2 block object)で1ファイル約600byteのメモリが必要
- 1億ファイル時には60GBのメモリがNameNode?に必要
1ファイルのサイズ平均は減少する傾向にある
- NameNode?のメモリ使用料が更に増加傾向
BlockReport?を１０分おき、Heartbeatを３秒おきにDataNode?が送信するとする
10000 DataNode?の時、
- NameNode?は秒間639,713のブロックを処理する必要が有る
- NameNode?は秒間300,000のハートビートを処理する必要が有る
これは、NameNode?のワークロードの約30%にあたる

↑

圧縮 †

↑

フレームワーク †

↑

Asakusa †

↑

導入支援サービス †

大量データを対象とした分散処理基盤　バッチ処理の高速化などに用途広がる

↑

Hadoop用サーバ †

↑

Cloudera’s Support Team Shares Some Basic Hardware Recommendations †

datanodes/tasktrackers
- 4 1TB hard disks in a JBOD (Just a Bunch Of Disks) configuration
- 2 quad core CPUs, running at least 2-2.5GHz
- 16-24GBs of RAM (24-32GBs if you’re considering HBase)
- Gigabit Ethernet
namenode/jobtracker
- 1GB of namenode memory for every one million blocks stored in the distributed file system
- With 100 datanodes in a cluster, 32GBs of RAM on the namenode provides plenty of room to grow
- We also recommend having a standby machine to replace the namenode or jobtracker, in the case when one of these fails suddenly
When you expect your Hadoop cluster to grow beyond 20 machines we recommend that the initial cluster be configured as it were to span two racks, where each rack has a top of rack gigabit switch, and those switches are connected with a 10 GigE interconnect or core switch.

Light Processing Configuration (1U/machine): Two quad core CPUs, 8GB memory, and 4 disk drives (1TB or 2TB). Note that CPU-intensive work such as natural language processing involves loading large models into RAM before processing data and should be configured with 2GB RAM/core instead of 1GB RAM/core.
Balanced Compute Configuration (1U/machine): Two quad core CPUs, 16 to 24GB memory, and 4 disk drives (1TB or 2TB) directly attached using the motherboard controller. These are often available as twins with two motherboards and 8 drives in a single 2U cabinet.
Storage Heavy Configuration (2U/machine): Two quad core CPUs, 16 to 24GB memory, and 12 disk drives (1TB or 2TB). The power consumption for this type of machine starts around ~200W in idle state and can go as high as ~350W when active.
Compute Intensive Configuration (2U/machine): Two quad core CPUs, 48-72GB memory, and 8 disk drives (1TB or 2TB). These are often used when a combination of large in-memory models and heavy reference data caching is required.

↑

Lindacloud for Hadoop †

Hadoop専用機「リンダ」を解剖
- CPU:Core2 Quad Q9550s
- RAM:8GB
- HDD:3.5inch 1TB x 4

↑

HP ProLiant SLサーバー †

HP ProLiant SLサーバー

HP Cluster Management Utility (HP-CMU)
- 多数のLinuxサーバを効率的に構築・運用・監視するためのソフトウェア
- 運用管理機能 ... 複数の演算ノードに対するファイル操作・編集、コマンド発行、ブート、シャットダウン、リブートや電源のオン/オフなどの処理を一括で実行
- クローン機能 ... 演算ノードのシステムディスクを他のノードに複製することが可能
- モニタ機能 ... 各演算ノードの負荷状況などさまざまなモニタ項目を、グラフや表で一覧可能

↑

HP DLシリーズ †

DL2000 ... namenodeとか、マスター系にはこのモデル
DL180 G6 ... HDD容量をかせぐならこのモデル

↑

その他 †

radserv ZX1 - A.T.WORKS ... 1/2Uで3.5inch SATA 2本搭載可能

日立、Hadoopに適したエントリーサーバにiSCSIブートモデルを追加

最新の20件

システム構成 †

Facebook †

eBay †

Twitter †

関連ツール †

ディストリビューション †

適用の仕方 †

ファイルが小さい場合 †

構築事例 †

可用性向上 †

0.20系 †

0.21系 †

Hadoopを気軽に試す †

Amazon Elastic MapReduce? †

Google BigQuery? †

環境構築 †

自動構築 †

NameNode?の冗長化 †

HDFS †

開発 †

開発ツール †

Hadoop Streaming †

運用 †

チューニング †

NameNode? †

圧縮 †

フレームワーク †

導入支援サービス †

Hadoop用サーバ †

HP DLシリーズ †

その他 †