Apache Sqoop クックブック

[cover photo]
TOPICS
クックブック , Database
発行年月日
ISBN
978-4-87311-662-4
原書
Apache Sqoop Cookbook
FORMAT
EPUB
Ebook
1,430円
Ebookを購入する

小さなテストデータセットから巨大な企業データウェアハウスまで、既存のSQLテーブルに蓄積された情報をHDFS(Hadoop Distributed Filesystem)にインポートするためのツールApache Sqoopの使い方を、実例に沿ったレシピとして紹介する書籍です。
Sqoopの導入、さまざまな形式のデータインポート、エクスポートから、Oozie、Hive、HBaseなどと組み合わせて利用する方法などのレシピを収録しています。Hadoopファミリを用いたソフトウェアシステムを構築、運用する上で手元に置いておきたい1冊となるでしょう。なお本書はEbook版のみの提供となります。

目次

序文
まえがき

1章 Sqoopの導入
    レシピ1.1 Sqoopをダウンロードしてインストールする
    レシピ1.2 JDBCドライバをインストールする
    レシピ1.3 専用コネクタをインストールする
    レシピ1.4 Sqoopを開始する
    レシピ1.5 Sqoopについて質問する

2章 データのインポート
    レシピ2.1 テーブル全体を転送する
    レシピ2.2 ターゲットディレクトリを指定する
    レシピ2.3 データのサブセットだけをインポートする
    レシピ2.4 パスワードを保護する
    レシピ2.5 CSV以外のファイル形式を使う
    レシピ2.6 インポートするデータを圧縮する
    レシピ2.7 転送スピードを上げる
    レシピ2.8 型マッピングを変更する
    レシピ2.9 並列処理を制御する
    レシピ2.10 NULL値をエンコードする
    レシピ2.11 すべてのテーブルをインポートする

3章 増分インポート
    レシピ3.1 新規データだけをインポートする
    レシピ3.2 可変データを増分インポートする
    レシピ3.3 最終インポート値を保存する
    レシピ3.4 パスワードをメタストアに保存する
    レシピ3.5 保存したジョブの引き数を変更する
    レシピ3.6 Sqoopクライアント間でメタストアを共有する

4章 自由形式クエリインポート
    レシピ4.1 2つのテーブルからデータをインポートする
    レシピ4.2 カスタム境界クエリを使う
    レシピ4.3 Sqoopジョブインスタンスの名前を変更する
    レシピ4.4 重複する列があるクエリをインポートする

5章 エクスポート
    レシピ5.1 Hadoopからデータを転送する
    レシピ5.2 データをバッチで挿入する
    レシピ5.3 オールオアナッシング・セマンティクスでエクスポートする
    レシピ5.4 既存のデータセットを更新する
    レシピ5.5 同時に更新または挿入を行う
    レシピ5.6 ストアドプロシージャを使う
    レシピ5.7 列のサブセットにエクスポートする
    レシピ5.8 NULL値のエンコードを変更する
    レシピ5.9 破損したデータをエクスポートする

6章 Hadoopエコシステムの統合
    レシピ6.1 OozieでSqoopのジョブをスケジュールする
    レシピ6.2 Oozieでコマンドを指定する
    レシピ6.3 Oozieでプロパティパラメータを使う
    レシピ6.4 OozieにJDBCドライバをインストールする
    レシピ6.5 データを直接Hiveにインポートする
    レシピ6.6 パーティション化したHiveテーブルを使う
    レシピ6.7 Hiveへのインポートの際、特定の区切り文字を置換する
    レシピ6.8 Hiveで正しいNULL文字列を使う
    レシピ6.9 HBaseにデータをインポートする
    レシピ6.10 すべての行をHBaseにインポートする
    レシピ6.11 HBaseへのインポート時の性能を向上させる

7章 専用コネクタ
    レシピ7.1 PostgreSQLダイレクトインポートでインポートするboolean値を変更する
    レシピ7.2 PostgreSQLのカスタムスキーマに保存されているテーブルをインポートする
    レシピ7.3 pg_bulkloadを使ってPostgreSQLにエクスポートする
    レシピ7.4 MySQLに接続する
    レシピ7.5 HiveへのダイレクトMySQLインポートを使う
    レシピ7.6 MySQLへのインポート時にupsert機能を使う
    レシピ7.7 Oracleからインポートする
    レシピ7.8 Oracleでシノニムを使う
    レシピ7.9 Oracleでの転送速度を上げる
    レシピ7.10 OraOopを使ってAvroにインポートする
    レシピ7.11 Oracleに適切なコネクタを選ぶ
    レシピ7.12 Teradataにエクスポートする
    レシピ7.13 Cloudera Teradataコネクタを使う
    レシピ7.14 Teradataで列に長い名前を使う