Hadoopオペレーション

―システム運用管理ガイド

[cover photo]
TOPICS
Database
発行年月日
PRINT LENGTH
352
ISBN
978-4-87311-652-5
原書
Hadoop Operations
FORMAT
PDF
Ebook
3,520円
Ebookを購入する

本書はHadoopの管理と運用に焦点を当てた本です。Hadoopのクラスタ計画から、認証、リソース管理、またクラスタのメンテナンス、モニタリング、バックアップとリカバリなど、Hadoopを使う際に必要なトピックについて網羅しています。日本語版ではClouderaの川崎達夫氏と小林大輔氏による「Cloudera Manager」、「Hue」、「高可用性ネームノードのアーキテクチャと動作詳細」についての記事を加筆。ビッグデータの根幹を支えるHadoopの管理と運用について網羅した本書は、データ技術者必携の一冊です。

目次

目次

はじめに

1章 イントロダクション

2章 HDFS
    2.1 ゴールと動機
    2.2 設計
    2.3 デーモン群
    2.4 データの読み書き
        2.4.1 読み取りの流れ
        2.4.2 書き込みの流れ
        2.4.3 ファイルシステムのメタデータの管理
    2.5 高可用性ネームノード
    2.6 ネームノードフェデレーション
    2.7 アクセスと結合
        2.7.1 コマンドラインツール群
        2.7.2 FUSE
        2.7.3 RESTのサポート

3章 MapReduce
    3.1 MapReduceのステージ群
    3.2 Hadoop MapReduceの紹介
        3.2.1 デーモン群
        3.2.2 なにもかもうまくいかない場合
    3.3 YARN

4章 Hadoopクラスタの計画
    4.1 Hadoopのディストリビューションとバージョンの選択
        4.1.1 Apache Hadoop
        4.1.2 Cloudera’s Distribution Including Apache Hadoop
        4.1.3 バージョンと機能
        4.1.4 どれを使うべきか?
        4.1.5 ハードウェアの選択
        4.1.6 マスターのハードウェアの選択
        4.1.7 ワーカーのハードウェアの選択
        4.1.8 クラスタのサイジング
        4.1.9 ブレード、SAN、仮想化
    4.2 オペレーティングシステムの選択と準備
        4.2.1 デプロイメントのレイアウト
        4.2.2 ソフトウェア
        4.2.3 ホスト名、DNS、識別
        4.2.4 ユーザー、グループ、権限
    4.3 カーネルのチューニング
        4.3.1 vm.swappiness
        4.3.2 vm.overcommit_memory
    4.4 ディスクの構成
        4.4.1 ファイルシステムの選択
        4.4.2 マウントオプション
    4.5 ネットワークの設計
        4.5.1 Hadoopにおけるネットワークの利用:レビュー
        4.5.2 1Gbネットワーク対10Gbネットワーク
        4.5.3 典型的なネットワークトポロジ

5章 インストールと設定
    5.1 Hadoopのインストール
        5.1.1 Apache Hadoop
        5.1.2 CDH
    5.2 設定の概要
        5.2.1 HadoopのXML設定ファイル群
    5.3 環境変数とシェルスクリプト
    5.4 ログの設定
    5.5 HDFS
        5.5.1 識別と場所
        5.5.2 最適化とチューニング
        5.5.3 ネームノードのフォーマット
        5.5.4 /tmpディレクトリの作成
    5.6 高可用性ネームノード
        5.6.1 フェンシングのオプション
        5.6.2 基本的な設定
        5.6.3 自動フェイルオーバーの設定
        5.6.4 ネームノードのフォーマットとブートストラップ
    5.7 ネームノードフェデレーション
    5.8 MapReduce
        5.8.1 識別と場所
        5.8.2 最適化とチューニング
    5.9 ラックのトポロジー
    5.10 セキュリティ

6章 アイデンティティ、認証、認可
    6.1 アイデンティティ
    6.2 KerberosとHadoop
        6.2.1 Kerberosの復習
        6.2.2 HadoopにおけるKerberosのサポート
    6.3 認可
        6.3.1 HDFS
        6.3.2 MapReduce
        6.3.3 その他のツールとシステム
    6.4 システムの構築

7章 リソース管理
    7.1 リソース管理とは何か?
    7.2 HDFSのクォータ
    7.3 MapReduceのスケジューラ
        7.3.1 FIFOスケジューラ
        7.3.2 フェアスケジューラ
        7.3.3 キャパシティスケジューラ
        7.3.4 将来

8章 クラスタのメンテナンス
    8.1 Hadoopのプロセス群の管理
        8.1.1 Initスクリプトによるプロセス群の起動と停止
        8.1.2 手動によるプロセスの起動と停止
    8.2 HDFSのメンテナンス作業
        8.2.1 データノードの追加
        8.2.2 データノードの脱退
        8.2.3 fsckによるファイルシステムの整合性チェック
        8.2.4 HDFSのブロックデータのバランシング
        8.2.5 ディスク障害への対応
    8.3 MapReduceのメンテナンス作業
        8.3.1 タスクトラッカーの追加
        8.3.2 タスクトラッカーの脱退
        8.3.3 MapReduceジョブの強制的な停止
        8.3.4 MapReduceタスクの強制的な停止
        8.3.5 ブラックリスト入りしたタスクトラッカーの扱い

9章 トラブルシューティング
    9.1 システムへの鑑別診断の適用
    9.2 一般的な障害と問題
        9.2.1 人間(あなた自身)
        9.2.2 設定のミス
        9.2.3 ハードウェアの障害
        9.2.4 リソースの不足
        9.2.5 ホストの識別と命名
        9.2.6 ネットワークの分断
    9.3 「電源ケーブルはつながってますか?」
        9.3.1 E-SPORE
    9.4 処置とケア
    9.5 戦いの物語
        9.5.1 謎のボトルネック
        9.5.2 127.0.0.1という場所はありません

10章 モニタリング
    10.1 概要
    10.2 Hadoopのメトリクス
        10.2.1 Apache Hadoop 0.20.0及びCDH3(metrics1)
        10.2.2 Apache Hadoop 0.203以降とCDH4(metrics2)
        10.2.3 SNMPはどうでしょう?
    10.3 健全性のモニタリング
        10.3.1 ホストのレベルでのチェック
        10.3.2 すべてのHadoopのプロセス
        10.3.3 HDFSのチェック
        10.3.4 MapReduceのチェック

11章 バックアップとリカバリ
    11.1 データのバックアップ
        11.1.1 分散コピー(distcp)
        11.1.2 データの並列取り込み
    11.2 ネームノードのメタデータ

付録A 非推奨となった設定プロパティ

付録B Cloudera Manager
    B.1 Cloudera Managerとは
    B.2 Cloudera Managerの構成とアーキテクチャ
        B.2.1 Cloudera Manager Agent
        B.2.2 Cloudera Manager Server
        B.2.3 Clients(クライアント)
        B.2.4 DB(データベース)
        B.2.5 Cloudera Repository
    B.3 Cloudera Managerの種類
    B.4 Cloudera Managerのインストール
    B.5 Cloudera Managerの機能
        B.5.1 管理機能
        B.5.2 モニタリング機能
        B.5.3 診断機能
        B.5.4 統合機能
    B.6 まとめ

付録C Hue(Hadoop用のGUIツール)
    C.1 Hueの紹介
    C.2 Hueのアーキテクチャ
    C.3 Hueのインストールと設定
        C.3.1 パッケージを使用したインストール
        C.3.2 ソースからビルドする
    C.4 Hueの設定
        C.4.1 HDFSの設定
        C.4.2 MapReduce v1の設定
        C.4.3 Hueサーバーの開始
        C.4.4 Hueサーバーの停止
    C.5 Hueを使用する
    C.6 Hueのアプリケーション
        C.6.1 独自のアプリケーションを追加する
    C.7 まとめ
参考情報

付録D 高可用性ネームノードのアーキテクチャと動作詳細
    D.1 はじめに
    D.2 開発背景
    D.3 Quorum Journal Managerベースネームノードの仕組み
        D.3.1 アーキテクチャ
    D.4 構成要件について
        D.4.1 ソフトウェア要件
        D.4.2 ハードウェア要件
        D.4.3 プロパティの設定
    D.5 QJMの起動手順
    D.6 エポック番号による書き込み時のフェンシング
    D.7 実際の動作を確認する
        D.7.1 起動時の動作を確認する
    D.8 フェイルオーバー時の動作を確認する
    D.9 JournalNodeのディレクトリ
    D.10 おわりに

索引