小さなテストデータセットから巨大な企業データウェアハウスまで、既存のSQLテーブルに蓄積された情報をHDFS(Hadoop Distributed Filesystem)にインポートするためのツールApache Sqoopの使い方を、実例に沿ったレシピとして紹介する書籍です。
Sqoopの導入、さまざまな形式のデータインポート、エクスポートから、Oozie、Hive、HBaseなどと組み合わせて利用する方法などのレシピを収録しています。Hadoopファミリを用いたソフトウェアシステムを構築、運用する上で手元に置いておきたい1冊となるでしょう。なお本書はEbook版のみの提供となります。
Apache Sqoop クックブック
Kathleen Ting、Jarek Jarcec Cecho 著、Cloudera株式会社 嶋内 翔 監訳、神崎 謙一、株式会社トップスタジオ 訳
- TOPICS
- クックブック , Database
- 発行年月日
- 2014年03月
- ISBN
- 978-4-87311-662-4
- 原書
- Apache Sqoop Cookbook
- FORMAT
- EPUB
目次
序文 まえがき 1章 Sqoopの導入 レシピ1.1 Sqoopをダウンロードしてインストールする レシピ1.2 JDBCドライバをインストールする レシピ1.3 専用コネクタをインストールする レシピ1.4 Sqoopを開始する レシピ1.5 Sqoopについて質問する 2章 データのインポート レシピ2.1 テーブル全体を転送する レシピ2.2 ターゲットディレクトリを指定する レシピ2.3 データのサブセットだけをインポートする レシピ2.4 パスワードを保護する レシピ2.5 CSV以外のファイル形式を使う レシピ2.6 インポートするデータを圧縮する レシピ2.7 転送スピードを上げる レシピ2.8 型マッピングを変更する レシピ2.9 並列処理を制御する レシピ2.10 NULL値をエンコードする レシピ2.11 すべてのテーブルをインポートする 3章 増分インポート レシピ3.1 新規データだけをインポートする レシピ3.2 可変データを増分インポートする レシピ3.3 最終インポート値を保存する レシピ3.4 パスワードをメタストアに保存する レシピ3.5 保存したジョブの引き数を変更する レシピ3.6 Sqoopクライアント間でメタストアを共有する 4章 自由形式クエリインポート レシピ4.1 2つのテーブルからデータをインポートする レシピ4.2 カスタム境界クエリを使う レシピ4.3 Sqoopジョブインスタンスの名前を変更する レシピ4.4 重複する列があるクエリをインポートする 5章 エクスポート レシピ5.1 Hadoopからデータを転送する レシピ5.2 データをバッチで挿入する レシピ5.3 オールオアナッシング・セマンティクスでエクスポートする レシピ5.4 既存のデータセットを更新する レシピ5.5 同時に更新または挿入を行う レシピ5.6 ストアドプロシージャを使う レシピ5.7 列のサブセットにエクスポートする レシピ5.8 NULL値のエンコードを変更する レシピ5.9 破損したデータをエクスポートする 6章 Hadoopエコシステムの統合 レシピ6.1 OozieでSqoopのジョブをスケジュールする レシピ6.2 Oozieでコマンドを指定する レシピ6.3 Oozieでプロパティパラメータを使う レシピ6.4 OozieにJDBCドライバをインストールする レシピ6.5 データを直接Hiveにインポートする レシピ6.6 パーティション化したHiveテーブルを使う レシピ6.7 Hiveへのインポートの際、特定の区切り文字を置換する レシピ6.8 Hiveで正しいNULL文字列を使う レシピ6.9 HBaseにデータをインポートする レシピ6.10 すべての行をHBaseにインポートする レシピ6.11 HBaseへのインポート時の性能を向上させる 7章 専用コネクタ レシピ7.1 PostgreSQLダイレクトインポートでインポートするboolean値を変更する レシピ7.2 PostgreSQLのカスタムスキーマに保存されているテーブルをインポートする レシピ7.3 pg_bulkloadを使ってPostgreSQLにエクスポートする レシピ7.4 MySQLに接続する レシピ7.5 HiveへのダイレクトMySQLインポートを使う レシピ7.6 MySQLへのインポート時にupsert機能を使う レシピ7.7 Oracleからインポートする レシピ7.8 Oracleでシノニムを使う レシピ7.9 Oracleでの転送速度を上げる レシピ7.10 OraOopを使ってAvroにインポートする レシピ7.11 Oracleに適切なコネクタを選ぶ レシピ7.12 Teradataにエクスポートする レシピ7.13 Cloudera Teradataコネクタを使う レシピ7.14 Teradataで列に長い名前を使う