小さなテストデータセットから巨大な企業データウェアハウスまで、既存のSQLテーブルに蓄積された情報をHDFS(Hadoop Distributed Filesystem)にインポートするためのツールApache Sqoopの使い方を、実例に沿ったレシピとして紹介する書籍です。
Sqoopの導入、さまざまな形式のデータインポート、エクスポートから、Oozie、Hive、HBaseなどと組み合わせて利用する方法などのレシピを収録しています。Hadoopファミリを用いたソフトウェアシステムを構築、運用する上で手元に置いておきたい1冊となるでしょう。なお本書はEbook版のみの提供となります。
Apache Sqoop クックブック
Kathleen Ting、Jarek Jarcec Cecho 著、Cloudera株式会社 嶋内 翔 監訳、神崎 謙一、株式会社トップスタジオ 訳
- TOPICS
- クックブック , Database
- 発行年月日
- 2014年03月
- ISBN
- 978-4-87311-662-4
- 原書
- Apache Sqoop Cookbook
- FORMAT
目次
序文
まえがき
1章 Sqoopの導入
レシピ1.1 Sqoopをダウンロードしてインストールする
レシピ1.2 JDBCドライバをインストールする
レシピ1.3 専用コネクタをインストールする
レシピ1.4 Sqoopを開始する
レシピ1.5 Sqoopについて質問する
2章 データのインポート
レシピ2.1 テーブル全体を転送する
レシピ2.2 ターゲットディレクトリを指定する
レシピ2.3 データのサブセットだけをインポートする
レシピ2.4 パスワードを保護する
レシピ2.5 CSV以外のファイル形式を使う
レシピ2.6 インポートするデータを圧縮する
レシピ2.7 転送スピードを上げる
レシピ2.8 型マッピングを変更する
レシピ2.9 並列処理を制御する
レシピ2.10 NULL値をエンコードする
レシピ2.11 すべてのテーブルをインポートする
3章 増分インポート
レシピ3.1 新規データだけをインポートする
レシピ3.2 可変データを増分インポートする
レシピ3.3 最終インポート値を保存する
レシピ3.4 パスワードをメタストアに保存する
レシピ3.5 保存したジョブの引き数を変更する
レシピ3.6 Sqoopクライアント間でメタストアを共有する
4章 自由形式クエリインポート
レシピ4.1 2つのテーブルからデータをインポートする
レシピ4.2 カスタム境界クエリを使う
レシピ4.3 Sqoopジョブインスタンスの名前を変更する
レシピ4.4 重複する列があるクエリをインポートする
5章 エクスポート
レシピ5.1 Hadoopからデータを転送する
レシピ5.2 データをバッチで挿入する
レシピ5.3 オールオアナッシング・セマンティクスでエクスポートする
レシピ5.4 既存のデータセットを更新する
レシピ5.5 同時に更新または挿入を行う
レシピ5.6 ストアドプロシージャを使う
レシピ5.7 列のサブセットにエクスポートする
レシピ5.8 NULL値のエンコードを変更する
レシピ5.9 破損したデータをエクスポートする
6章 Hadoopエコシステムの統合
レシピ6.1 OozieでSqoopのジョブをスケジュールする
レシピ6.2 Oozieでコマンドを指定する
レシピ6.3 Oozieでプロパティパラメータを使う
レシピ6.4 OozieにJDBCドライバをインストールする
レシピ6.5 データを直接Hiveにインポートする
レシピ6.6 パーティション化したHiveテーブルを使う
レシピ6.7 Hiveへのインポートの際、特定の区切り文字を置換する
レシピ6.8 Hiveで正しいNULL文字列を使う
レシピ6.9 HBaseにデータをインポートする
レシピ6.10 すべての行をHBaseにインポートする
レシピ6.11 HBaseへのインポート時の性能を向上させる
7章 専用コネクタ
レシピ7.1 PostgreSQLダイレクトインポートでインポートするboolean値を変更する
レシピ7.2 PostgreSQLのカスタムスキーマに保存されているテーブルをインポートする
レシピ7.3 pg_bulkloadを使ってPostgreSQLにエクスポートする
レシピ7.4 MySQLに接続する
レシピ7.5 HiveへのダイレクトMySQLインポートを使う
レシピ7.6 MySQLへのインポート時にupsert機能を使う
レシピ7.7 Oracleからインポートする
レシピ7.8 Oracleでシノニムを使う
レシピ7.9 Oracleでの転送速度を上げる
レシピ7.10 OraOopを使ってAvroにインポートする
レシピ7.11 Oracleに適切なコネクタを選ぶ
レシピ7.12 Teradataにエクスポートする
レシピ7.13 Cloudera Teradataコネクタを使う
レシピ7.14 Teradataで列に長い名前を使う