Hadoop
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
-ライセンス:[[Apache Licence 2.0:http://www.apache.org/l...
-[[採用実績:http://wiki.apache.org/hadoop/PoweredBy]]
-[[Hadoop World 2010 の ビデオと PPT:http://www.cloudera....
-[[ソフトバンク通信3社向けHadoop研修資料公開 by PFI:http:...
-[[Dhruba Borthakur, Hadoop分散ファイルシステム:アーキテ...
-[[Open TechTalk「Hadoop Hack Night」レポート:http://tech...
--[[Hadoop Hacks Night詳細レポート[前編]:http://gihyo.j...
--[[Hadoop Hacks Night詳細レポート[後編]:http://gihyo.j...
-配下のプロジェクト
--Hadoop Streaming ... PerlやPHP言語でMap/Reduceプログラ...
--Hadoop Hive ... SQL風言語でMap/Reduceプログラムを作成
--Hadoop Pig ... MapプログラムはPerl言語など、Reduceプロ...
-[[連載:企業で使われるHadoop:http://thinkit.co.jp/book/2...
--[[第1回 大量データのバッチ処理を高速化するHadoop:http:/...
--[[第2回 Hadoopがスケール・アウトする仕組み:http://think...
--[[第3回 「データのライフ・サイクル」で考えるHadoopの使...
---[[図:RDBMS、Hadoop、KVSを組み合わせて使い分ける:http:...
--[[第4回 Hadoopシステム構築のノウハウ:http://thinkit.co....
-Hadoopによる分散データ処理
--[[第1回 導入編:http://www.ibm.com/developerworks/jp/lin...
--[[第2回 拡張編:http://www.ibm.com/developerworks/jp/lin...
--[[第3回 アプリケーション開発:http://www.ibm.com/develop...
-[[高まるHadoopの導入機運、日本のHadooperが集結:http://ww...
-[[Hadoop、hBaseで構築する大規模分散データ処理システム:ht...
-[[Hadoopのインストールとサンプルプログラムの実行:http://...
-[[複数マシンへHadoopをインストールする:http://codezine.j...
-[[Hadoopを用いたクラスタコンピューティング環境の構築:htt...
-[[オープンソース分散システム「Hadoop」解析資料:http://pr...
-[[Hadoop Streaming - naoyaのはてなダイアリー:http://d.ha...
-[[ヤフーが検索にHadoop採用、グーグルっぽく脱皮を図る:htt...
--[[Hadoop and Distributed Computing at Yahoo!:http://dev...
-[[いま再注目の分散処理技術:http://www.atmarkit.co.jp/fja...
--[[MapReduceのJava実装 Apache Hadoopを使ってみた:http://...
-[[GoogleのMapReduceアルゴリズムをJavaで理解する:http://w...
-[[hadoop-ec2でアクセス解析してみたよ!:http://journal.so...
-小さいファイルを処理する際には、サーバー間通信・プログラ...
-[[Hadoop構築支援サービス:http://www.littel-hadoop.jp/]]
-[[平成21年度産学連携ソフトウェア工学実践事業(高信頼ク...
-[[Hadoop と RDBMS の性能を比較してみた。という論文。の感...
-[[インフラエンジニアのためのHadoop情報:http://so-net-dev...
-[[次世代版「Hadoop」開発を進めるヤフー:http://www.comput...
-[[Hadoop Conference Japan 2011行ってきました:http://yskw...
-[[Hadoop conference japan 2011に参加してきた:http://blog...
-[[Hadoop and HBase vs RDBMS メモ:http://onchange.blogspo...
* システム構成 [#e2d92e1e]
-[[導入事例:http://wiki.apache.org/hadoop/PoweredBy]]
** Facebook [#j0a9b48c]
-[[FacebookによるHadoop, Hive, HBaseそして A/B Testingへ...
** eBay [#wfc8be7a]
| レイヤ | ツール |h
| 監視・アラート | Ganglia, Nagios |
| ツール・ライブラリ | HUE/Mobius, UC4, Oozie, Mahout |
| データアクセス | Pig, Hive, MQL |
| MapReduce | Java, Pipes, Scala, Python |
| Hadoop Core | Hadoop, HDFS |
** Twitter [#tbed0a88]
| レイヤ | ツール |h
| Data Products | |
| Data Analytics | Java ME, Pig, Hive, Oozie |
| Data Input | Scribe, Crane |
| Data Formats | Elephant Bird, Hadoop-LZO |
| HDFS | |
-Elephant-birdはlzo圧縮したデータをproto bufで圧縮して送...
-[[Hadoop at Twitter (Hadoop Summit 2010) :http://www.sli...
-[[Hadoop and Pig at Twitter (Hadoop Summit 2010):http://...
-[[NoSQL at Twitter (NoSQL EU 2010):http://www.slideshare...
* 関連ツール [#wc795b21]
** [[S4:http://s4.io/]] [#b7564f14]
-[[リアルタイムなHadoop? 「Real-Time MapReduce」を実現す...
-[[S4: the open-source distributed stream computing platf...
** [[Pig:http://pig.apache.org/]] [#m37eafeb]
-PigのDSLは、独特な言語体系を持ち、ステップ単位で集合演算...
** [[Hive:http://hive.apache.org/]] [#b23d7658]
-[[Hive Wiki:http://wiki.apache.org/hadoop/Hive]]
-Hiveはデータを構造化し、SQLライクな言語(HiveQL)でデー...
-半構造化されたテキストファイルをタブ区切り、カンマ区切り...
-テーブル定義情報はメタストアに保存される
-メタストアには組み込みDBやMySQLなどが利用可能
-パーティショニングが使える
-ユーザ定義関数の作成も可能
-基本的に単一のソース(入力データ)とシンク(出力データ)...
-[[Hadoop/Hiveを用いたログ解析基盤の構築:http://ameblo.jp...
--決まった解析をDailyやMonthlyで行う場合はスケジューリン...
** [[Oozie:http://metasearch.sourceforge.jp/wiki/index.ph...
-[[1台でOozieを試してみる(CentOS + Cloudera(CDH3 beta3)):...
-米Yahoo! で開発、運用されている Apache Hadoop のためオー...
-HDFSへの操作、Pigスクリプトの実行そしてMap/Reduce処理を...
** [[Flume:http://archive.cloudera.com/cdh/3/flume/]] [#o...
-Flume is a distributed, reliable, and available service ...
-[[Flume intro-100715:http://www.slideshare.net/cloudera/...
-[[Inside Flume:http://www.slideshare.net/cloudera/inside...
-[[Flume cassandra real time log processing (日本語):htt...
-HBaseとの連携
--[[Search Analytics with Flume and HBase:http://www.slid...
---Metric Capture -> Log File -> Flume Agent -> Flume Col...
--[[Add Efficient HBase Sink whith Flexible Event's Attri...
--[[8.2.2. Introducing Sink Decorators - Flume User Guide...
collector(15000) { [ escapedCustomDfs("xxx","yyy-%{rollt...
** [[Scribe:https://github.com/facebook/scribe]] [#veb535...
-[[Scribeを使ってアクセスログを集約する:http://d.hatena.n...
-[[障害に強いscribeサーバ構成と設定:http://d.hatena.ne.jp...
* ディストリビューション [#s0a2d5ac]
-[[CDH3:http://www.cloudera.com/hadoop/]]
--[[Distribution Details:http://www.cloudera.com/hadoop-d...
--[[クラウデラ、Hadoopディストリビューション最新版「CDH3...
* 適用の仕方 [#g9e0c401]
** ファイルが小さい場合 [#e1dfb309]
-MapReduceで小さいファイルを1つにまとめる処理を定期的に走...
-[[Hadoop Archives:http://hadoop.apache.org/mapreduce/doc...
--[[Hadoopアーカイブ:http://metasearch.sourceforge.jp/wik...
* 構築事例 [#b0630dfd]
-[[Hadoop〜Yahoo! JAPANの活用について〜 :http://www.slide...
--JavaでMapReduceを書くのはマシン語を書くようなもの
--Yahoo! Inc.のジョブの60%はPigで書かれている
--[[Yahoo! TechBlog (Hadoop):http://custom.search.yahoo.c...
-[[楽天の事例から見えた「Hadoop」構築の誤解:http://www.ke...
--現実的には、Hadoopを最適に動かすためのハードウェアは相...
--データレプリカの配置が障害レベルに応じてきちんと分散さ...
--サーバをフル稼働させるために電力使用効率なども真剣に考...
--SQLに似た言語を用いてHadoopのMapReduce処理が記述可能なH...
-[[ついに Apple も、Hadoop ユーザーになるようだ!:http://...
| 企業 | プロセッサ数 | データサイズ |h
| Yahoo | 4000 | 1.5PB |
| eBay | 8500 | 16PB |
| NewYorkTimes | | |
| Facebook | | |
| Twitter | | |
| Apple | | |
-[[企業システムにおける大規模データの活用と Hadoop の動向...
* 可用性向上 [#l90bc555]
** 0.20系 [#a2f0dbbd]
-Linux-HAクラスタによるマスタノードの冗長化
--[[Hadoopを用いたクラスタコンピューティング環境の構築:ht...
--[[Hadoopを用いたクラスタコンピューティング環境の構築:ht...
-メタデータのバックアップ
--0.20系にはBackupNodeの機能がない。自分でNFSマウントとか...
** 0.21系 [#u849c5fe]
-CheckpointNode
-BackupNode
* Hadoopを気軽に試す [#rd651f69]
** Amazon Elastic MapReduce [#g4ab0199]
-100台を1時間、1000円程度
** Google BigQuery [#k9475777]
* 環境構築 [#se093593]
-[[CentOS に Hadoop, Pig, Hive, HBase をインストール:http...
-[[4台構成のHadoopを100分で試してみる(CentOS + Cloudera):...
** 自動構築 [#i33601a9]
-kickstart ... OSの自動インストールで使用
-Puppet ... Hadoop関連の自動インストールで使用
** NameNodeの冗長化 [#o5fff637]
-[[Hadoop HA Configuration - Cloudera:http://www.cloudera...
* HDFS [#a14a1d13]
-[[Mounting HDFS:http://wiki.apache.org/hadoop/MountableH...
-[[HDFSをマウントして利用してみる:http://blog.kirie.net/l...
-[[hadoopのHDFSをRHELでマウント:http://ameblo.jp/takakusa...
-[[fuseでhdfsをmount:http://d.hatena.ne.jp/tagomoris/2011...
* 開発 [#uad342bb]
-[[Java 開発 2.0: Hadoop MapReduce によるビッグ・データ分...
** 開発ツール [#r4b289ce]
-[[Karmasphere Studio:http://www.karmasphere.com/Products...
** Hadoop Streaming [#z443bba2]
-[[Hadoopに入門してみた - セットアップからHadoop Streamin...
-[[Writing An Hadoop MapReduce Program In Python:http://w...
-[[Hadoop Streaming Made Simple using Joins and Keys with...
-[[Hadoopでサンプル作成:http://sites.google.com/site/pcch...
-[[Pythonで自然言語処理:http://www.slideshare.net/moaikid...
* 運用 [#eea3eb93]
-[[Hadoop運用:http://metasearch.sourceforge.jp/wiki/index...
* チューニング [#xca6b3f3]
** NameNode [#hb47bcda]
-[[HDFSのスケーラビリティ:https://groups.google.com/group...
--[[HDFS Scalability:http://www.google.com/url?sa=D&q=htt...
--[[Scalability of the Hadoop Distributed File System:htt...
-- Block Sizeは128Mで運用
-- 1ファイルは平均1.5ブロック(192MB)
-- NameNodeでは、(1 file object + 2 block object)で1ファ...
--- 1億ファイル時には60GBのメモリがNameNodeに必要
-- 1ファイルのサイズ平均は減少する傾向にある
--- NameNodeのメモリ使用料が更に増加傾向
-- BlockReportを10分おき、Heartbeatを3秒おきにDataNode...
-- 10000 DataNodeの時、
--- NameNodeは秒間639,713のブロックを処理する必要が有る
--- NameNodeは秒間300,000のハートビートを処理する必要が有...
-- これは、NameNodeのワークロードの約30%にあたる
** 圧縮 [#z3c27bec]
-[[Hadoop チューニング データ圧縮:http://metasearch.sourc...
-[[LZO圧縮は速い:http://d.hatena.ne.jp/maachang/20110105]]
* フレームワーク [#f8ee726a]
** [[Asakusa:https://github.com/asakusafw]] [#i6f9f123]
-[[Hadoop向け基幹バッチ分散処理ソフト「Asakusa」の全貌:ht...
-[[基幹バッチ再構築のニーズは大きい、Hadoopの課題をAsakus...
* 導入支援サービス [#ud7c113b]
-[[大量データを対象とした分散処理基盤 バッチ処理の高速化...
* Hadoop用サーバ [#e8b09fde]
** [[Cloudera’s Support Team Shares Some Basic Hardware R...
-datanodes/tasktrackers
--4 1TB hard disks in a JBOD (Just a Bunch Of Disks) conf...
--2 quad core CPUs, running at least 2-2.5GHz
--16-24GBs of RAM (24-32GBs if you’re considering HBase)
--Gigabit Ethernet
-namenode/jobtracker
--1GB of namenode memory for every one million blocks sto...
--With 100 datanodes in a cluster, 32GBs of RAM on the na...
--We also recommend having a standby machine to replace t...
-When you expect your Hadoop cluster to grow beyond 20 ma...
-Light Processing Configuration (1U/machine): Two quad co...
-Balanced Compute Configuration (1U/machine): Two quad co...
-Storage Heavy Configuration (2U/machine): Two quad core ...
-Compute Intensive Configuration (2U/machine): Two quad c...
** [[Lindacloud for Hadoop:http://www.lindacloud.com/line...
-[[Hadoop専用機「リンダ」を解剖:http://itpro.nikkeibp.co....
--CPU:Core2 Quad Q9550s
--RAM:8GB
--HDD:3.5inch 1TB x 4
** [[HP ProLiant SLサーバー:http://h50146.www5.hp.com/pro...
-[[日本HP、Hadoop関連ビジネスを強化〜コンサルサービスや高...
-[[日本HP、Hadoop処理を最適化するサーバ3製品と導入支援サ...
-[[スパコン並みの性能を実現する「GPU+CPUハイブリッドソリ...
-[[100倍のパフォーマンスも夢ではない。次世代スパコンを体...
-[[HP ProLiant SLサーバー:http://h50146.www5.hp.com/produ...
--[[システム構成図:http://h50146.www5.hp.com/products/ser...
--[[HP ProLiant SL335s G7:http://h50146.www5.hp.com/produ...
--[[HP ProLiant SL160s G6:http://h10010.www1.hp.com/wwpc/...
--[[HP ProLiant SL165s G7:http://h10010.www1.hp.com/wwpc/...
-[[HP Cluster Management Utility (HP-CMU):http://h50146.w...
--多数のLinuxサーバを効率的に構築・運用・監視するためのソ...
--運用管理機能 ... 複数の演算ノードに対するファイル操作・...
--クローン機能 ... 演算ノードのシステムディスクを他のノー...
--モニタ機能 ... 各演算ノードの負荷状況などさまざまなモニ...
-[[Hadoopをインストールし使ってみる(06-APR-2011):http://h...
-[[アーキテクチャー概要:HadoopとHP:http://h50146.www5.hp...
** HP DLシリーズ [#h0c58158]
-[[DL2000:http://h50146.www5.hp.com/products/servers/prol...
-[[DL180 G6:http://h10010.www1.hp.com/wwpc/jp/ja/sm/WF05a...
** その他 [#ef2bb78f]
-[[radserv ZX1 - A.T.WORKS:http://online.atworks.co.jp/pr...
-[[日立、Hadoopに適したエントリーサーバにiSCSIブートモデ...
終了行:
-ライセンス:[[Apache Licence 2.0:http://www.apache.org/l...
-[[採用実績:http://wiki.apache.org/hadoop/PoweredBy]]
-[[Hadoop World 2010 の ビデオと PPT:http://www.cloudera....
-[[ソフトバンク通信3社向けHadoop研修資料公開 by PFI:http:...
-[[Dhruba Borthakur, Hadoop分散ファイルシステム:アーキテ...
-[[Open TechTalk「Hadoop Hack Night」レポート:http://tech...
--[[Hadoop Hacks Night詳細レポート[前編]:http://gihyo.j...
--[[Hadoop Hacks Night詳細レポート[後編]:http://gihyo.j...
-配下のプロジェクト
--Hadoop Streaming ... PerlやPHP言語でMap/Reduceプログラ...
--Hadoop Hive ... SQL風言語でMap/Reduceプログラムを作成
--Hadoop Pig ... MapプログラムはPerl言語など、Reduceプロ...
-[[連載:企業で使われるHadoop:http://thinkit.co.jp/book/2...
--[[第1回 大量データのバッチ処理を高速化するHadoop:http:/...
--[[第2回 Hadoopがスケール・アウトする仕組み:http://think...
--[[第3回 「データのライフ・サイクル」で考えるHadoopの使...
---[[図:RDBMS、Hadoop、KVSを組み合わせて使い分ける:http:...
--[[第4回 Hadoopシステム構築のノウハウ:http://thinkit.co....
-Hadoopによる分散データ処理
--[[第1回 導入編:http://www.ibm.com/developerworks/jp/lin...
--[[第2回 拡張編:http://www.ibm.com/developerworks/jp/lin...
--[[第3回 アプリケーション開発:http://www.ibm.com/develop...
-[[高まるHadoopの導入機運、日本のHadooperが集結:http://ww...
-[[Hadoop、hBaseで構築する大規模分散データ処理システム:ht...
-[[Hadoopのインストールとサンプルプログラムの実行:http://...
-[[複数マシンへHadoopをインストールする:http://codezine.j...
-[[Hadoopを用いたクラスタコンピューティング環境の構築:htt...
-[[オープンソース分散システム「Hadoop」解析資料:http://pr...
-[[Hadoop Streaming - naoyaのはてなダイアリー:http://d.ha...
-[[ヤフーが検索にHadoop採用、グーグルっぽく脱皮を図る:htt...
--[[Hadoop and Distributed Computing at Yahoo!:http://dev...
-[[いま再注目の分散処理技術:http://www.atmarkit.co.jp/fja...
--[[MapReduceのJava実装 Apache Hadoopを使ってみた:http://...
-[[GoogleのMapReduceアルゴリズムをJavaで理解する:http://w...
-[[hadoop-ec2でアクセス解析してみたよ!:http://journal.so...
-小さいファイルを処理する際には、サーバー間通信・プログラ...
-[[Hadoop構築支援サービス:http://www.littel-hadoop.jp/]]
-[[平成21年度産学連携ソフトウェア工学実践事業(高信頼ク...
-[[Hadoop と RDBMS の性能を比較してみた。という論文。の感...
-[[インフラエンジニアのためのHadoop情報:http://so-net-dev...
-[[次世代版「Hadoop」開発を進めるヤフー:http://www.comput...
-[[Hadoop Conference Japan 2011行ってきました:http://yskw...
-[[Hadoop conference japan 2011に参加してきた:http://blog...
-[[Hadoop and HBase vs RDBMS メモ:http://onchange.blogspo...
* システム構成 [#e2d92e1e]
-[[導入事例:http://wiki.apache.org/hadoop/PoweredBy]]
** Facebook [#j0a9b48c]
-[[FacebookによるHadoop, Hive, HBaseそして A/B Testingへ...
** eBay [#wfc8be7a]
| レイヤ | ツール |h
| 監視・アラート | Ganglia, Nagios |
| ツール・ライブラリ | HUE/Mobius, UC4, Oozie, Mahout |
| データアクセス | Pig, Hive, MQL |
| MapReduce | Java, Pipes, Scala, Python |
| Hadoop Core | Hadoop, HDFS |
** Twitter [#tbed0a88]
| レイヤ | ツール |h
| Data Products | |
| Data Analytics | Java ME, Pig, Hive, Oozie |
| Data Input | Scribe, Crane |
| Data Formats | Elephant Bird, Hadoop-LZO |
| HDFS | |
-Elephant-birdはlzo圧縮したデータをproto bufで圧縮して送...
-[[Hadoop at Twitter (Hadoop Summit 2010) :http://www.sli...
-[[Hadoop and Pig at Twitter (Hadoop Summit 2010):http://...
-[[NoSQL at Twitter (NoSQL EU 2010):http://www.slideshare...
* 関連ツール [#wc795b21]
** [[S4:http://s4.io/]] [#b7564f14]
-[[リアルタイムなHadoop? 「Real-Time MapReduce」を実現す...
-[[S4: the open-source distributed stream computing platf...
** [[Pig:http://pig.apache.org/]] [#m37eafeb]
-PigのDSLは、独特な言語体系を持ち、ステップ単位で集合演算...
** [[Hive:http://hive.apache.org/]] [#b23d7658]
-[[Hive Wiki:http://wiki.apache.org/hadoop/Hive]]
-Hiveはデータを構造化し、SQLライクな言語(HiveQL)でデー...
-半構造化されたテキストファイルをタブ区切り、カンマ区切り...
-テーブル定義情報はメタストアに保存される
-メタストアには組み込みDBやMySQLなどが利用可能
-パーティショニングが使える
-ユーザ定義関数の作成も可能
-基本的に単一のソース(入力データ)とシンク(出力データ)...
-[[Hadoop/Hiveを用いたログ解析基盤の構築:http://ameblo.jp...
--決まった解析をDailyやMonthlyで行う場合はスケジューリン...
** [[Oozie:http://metasearch.sourceforge.jp/wiki/index.ph...
-[[1台でOozieを試してみる(CentOS + Cloudera(CDH3 beta3)):...
-米Yahoo! で開発、運用されている Apache Hadoop のためオー...
-HDFSへの操作、Pigスクリプトの実行そしてMap/Reduce処理を...
** [[Flume:http://archive.cloudera.com/cdh/3/flume/]] [#o...
-Flume is a distributed, reliable, and available service ...
-[[Flume intro-100715:http://www.slideshare.net/cloudera/...
-[[Inside Flume:http://www.slideshare.net/cloudera/inside...
-[[Flume cassandra real time log processing (日本語):htt...
-HBaseとの連携
--[[Search Analytics with Flume and HBase:http://www.slid...
---Metric Capture -> Log File -> Flume Agent -> Flume Col...
--[[Add Efficient HBase Sink whith Flexible Event's Attri...
--[[8.2.2. Introducing Sink Decorators - Flume User Guide...
collector(15000) { [ escapedCustomDfs("xxx","yyy-%{rollt...
** [[Scribe:https://github.com/facebook/scribe]] [#veb535...
-[[Scribeを使ってアクセスログを集約する:http://d.hatena.n...
-[[障害に強いscribeサーバ構成と設定:http://d.hatena.ne.jp...
* ディストリビューション [#s0a2d5ac]
-[[CDH3:http://www.cloudera.com/hadoop/]]
--[[Distribution Details:http://www.cloudera.com/hadoop-d...
--[[クラウデラ、Hadoopディストリビューション最新版「CDH3...
* 適用の仕方 [#g9e0c401]
** ファイルが小さい場合 [#e1dfb309]
-MapReduceで小さいファイルを1つにまとめる処理を定期的に走...
-[[Hadoop Archives:http://hadoop.apache.org/mapreduce/doc...
--[[Hadoopアーカイブ:http://metasearch.sourceforge.jp/wik...
* 構築事例 [#b0630dfd]
-[[Hadoop〜Yahoo! JAPANの活用について〜 :http://www.slide...
--JavaでMapReduceを書くのはマシン語を書くようなもの
--Yahoo! Inc.のジョブの60%はPigで書かれている
--[[Yahoo! TechBlog (Hadoop):http://custom.search.yahoo.c...
-[[楽天の事例から見えた「Hadoop」構築の誤解:http://www.ke...
--現実的には、Hadoopを最適に動かすためのハードウェアは相...
--データレプリカの配置が障害レベルに応じてきちんと分散さ...
--サーバをフル稼働させるために電力使用効率なども真剣に考...
--SQLに似た言語を用いてHadoopのMapReduce処理が記述可能なH...
-[[ついに Apple も、Hadoop ユーザーになるようだ!:http://...
| 企業 | プロセッサ数 | データサイズ |h
| Yahoo | 4000 | 1.5PB |
| eBay | 8500 | 16PB |
| NewYorkTimes | | |
| Facebook | | |
| Twitter | | |
| Apple | | |
-[[企業システムにおける大規模データの活用と Hadoop の動向...
* 可用性向上 [#l90bc555]
** 0.20系 [#a2f0dbbd]
-Linux-HAクラスタによるマスタノードの冗長化
--[[Hadoopを用いたクラスタコンピューティング環境の構築:ht...
--[[Hadoopを用いたクラスタコンピューティング環境の構築:ht...
-メタデータのバックアップ
--0.20系にはBackupNodeの機能がない。自分でNFSマウントとか...
** 0.21系 [#u849c5fe]
-CheckpointNode
-BackupNode
* Hadoopを気軽に試す [#rd651f69]
** Amazon Elastic MapReduce [#g4ab0199]
-100台を1時間、1000円程度
** Google BigQuery [#k9475777]
* 環境構築 [#se093593]
-[[CentOS に Hadoop, Pig, Hive, HBase をインストール:http...
-[[4台構成のHadoopを100分で試してみる(CentOS + Cloudera):...
** 自動構築 [#i33601a9]
-kickstart ... OSの自動インストールで使用
-Puppet ... Hadoop関連の自動インストールで使用
** NameNodeの冗長化 [#o5fff637]
-[[Hadoop HA Configuration - Cloudera:http://www.cloudera...
* HDFS [#a14a1d13]
-[[Mounting HDFS:http://wiki.apache.org/hadoop/MountableH...
-[[HDFSをマウントして利用してみる:http://blog.kirie.net/l...
-[[hadoopのHDFSをRHELでマウント:http://ameblo.jp/takakusa...
-[[fuseでhdfsをmount:http://d.hatena.ne.jp/tagomoris/2011...
* 開発 [#uad342bb]
-[[Java 開発 2.0: Hadoop MapReduce によるビッグ・データ分...
** 開発ツール [#r4b289ce]
-[[Karmasphere Studio:http://www.karmasphere.com/Products...
** Hadoop Streaming [#z443bba2]
-[[Hadoopに入門してみた - セットアップからHadoop Streamin...
-[[Writing An Hadoop MapReduce Program In Python:http://w...
-[[Hadoop Streaming Made Simple using Joins and Keys with...
-[[Hadoopでサンプル作成:http://sites.google.com/site/pcch...
-[[Pythonで自然言語処理:http://www.slideshare.net/moaikid...
* 運用 [#eea3eb93]
-[[Hadoop運用:http://metasearch.sourceforge.jp/wiki/index...
* チューニング [#xca6b3f3]
** NameNode [#hb47bcda]
-[[HDFSのスケーラビリティ:https://groups.google.com/group...
--[[HDFS Scalability:http://www.google.com/url?sa=D&q=htt...
--[[Scalability of the Hadoop Distributed File System:htt...
-- Block Sizeは128Mで運用
-- 1ファイルは平均1.5ブロック(192MB)
-- NameNodeでは、(1 file object + 2 block object)で1ファ...
--- 1億ファイル時には60GBのメモリがNameNodeに必要
-- 1ファイルのサイズ平均は減少する傾向にある
--- NameNodeのメモリ使用料が更に増加傾向
-- BlockReportを10分おき、Heartbeatを3秒おきにDataNode...
-- 10000 DataNodeの時、
--- NameNodeは秒間639,713のブロックを処理する必要が有る
--- NameNodeは秒間300,000のハートビートを処理する必要が有...
-- これは、NameNodeのワークロードの約30%にあたる
** 圧縮 [#z3c27bec]
-[[Hadoop チューニング データ圧縮:http://metasearch.sourc...
-[[LZO圧縮は速い:http://d.hatena.ne.jp/maachang/20110105]]
* フレームワーク [#f8ee726a]
** [[Asakusa:https://github.com/asakusafw]] [#i6f9f123]
-[[Hadoop向け基幹バッチ分散処理ソフト「Asakusa」の全貌:ht...
-[[基幹バッチ再構築のニーズは大きい、Hadoopの課題をAsakus...
* 導入支援サービス [#ud7c113b]
-[[大量データを対象とした分散処理基盤 バッチ処理の高速化...
* Hadoop用サーバ [#e8b09fde]
** [[Cloudera’s Support Team Shares Some Basic Hardware R...
-datanodes/tasktrackers
--4 1TB hard disks in a JBOD (Just a Bunch Of Disks) conf...
--2 quad core CPUs, running at least 2-2.5GHz
--16-24GBs of RAM (24-32GBs if you’re considering HBase)
--Gigabit Ethernet
-namenode/jobtracker
--1GB of namenode memory for every one million blocks sto...
--With 100 datanodes in a cluster, 32GBs of RAM on the na...
--We also recommend having a standby machine to replace t...
-When you expect your Hadoop cluster to grow beyond 20 ma...
-Light Processing Configuration (1U/machine): Two quad co...
-Balanced Compute Configuration (1U/machine): Two quad co...
-Storage Heavy Configuration (2U/machine): Two quad core ...
-Compute Intensive Configuration (2U/machine): Two quad c...
** [[Lindacloud for Hadoop:http://www.lindacloud.com/line...
-[[Hadoop専用機「リンダ」を解剖:http://itpro.nikkeibp.co....
--CPU:Core2 Quad Q9550s
--RAM:8GB
--HDD:3.5inch 1TB x 4
** [[HP ProLiant SLサーバー:http://h50146.www5.hp.com/pro...
-[[日本HP、Hadoop関連ビジネスを強化〜コンサルサービスや高...
-[[日本HP、Hadoop処理を最適化するサーバ3製品と導入支援サ...
-[[スパコン並みの性能を実現する「GPU+CPUハイブリッドソリ...
-[[100倍のパフォーマンスも夢ではない。次世代スパコンを体...
-[[HP ProLiant SLサーバー:http://h50146.www5.hp.com/produ...
--[[システム構成図:http://h50146.www5.hp.com/products/ser...
--[[HP ProLiant SL335s G7:http://h50146.www5.hp.com/produ...
--[[HP ProLiant SL160s G6:http://h10010.www1.hp.com/wwpc/...
--[[HP ProLiant SL165s G7:http://h10010.www1.hp.com/wwpc/...
-[[HP Cluster Management Utility (HP-CMU):http://h50146.w...
--多数のLinuxサーバを効率的に構築・運用・監視するためのソ...
--運用管理機能 ... 複数の演算ノードに対するファイル操作・...
--クローン機能 ... 演算ノードのシステムディスクを他のノー...
--モニタ機能 ... 各演算ノードの負荷状況などさまざまなモニ...
-[[Hadoopをインストールし使ってみる(06-APR-2011):http://h...
-[[アーキテクチャー概要:HadoopとHP:http://h50146.www5.hp...
** HP DLシリーズ [#h0c58158]
-[[DL2000:http://h50146.www5.hp.com/products/servers/prol...
-[[DL180 G6:http://h10010.www1.hp.com/wwpc/jp/ja/sm/WF05a...
** その他 [#ef2bb78f]
-[[radserv ZX1 - A.T.WORKS:http://online.atworks.co.jp/pr...
-[[日立、Hadoopに適したエントリーサーバにiSCSIブートモデ...
ページ名: