クラウドデータレイク

―無限の可能性があるデータを無駄なく活かすアーキテクチャ設計ガイド

Rukmani Gopalan　著、丸本健二郎　監訳、長尾高弘　訳

TOPICS: Database
発行年月日: 2024年05月17日
PRINT LENGTH: 288
ISBN: 978-4-8144-0067-6
原書: The Cloud Data Lake
FORMAT: Print PDF EPUB

オンライン学習プラットフォーム

購読可
いますぐ読む

Ebook

3,520円
Ebookを購入する

Print

3,520円

書籍のご注文はオーム社サイトへ

大量のデータを効率的に管理し、ビッグデータ分析、機械学習、AIなどの高度なデータ分析を実現するためのデータ基盤として、クラウドデータレイクが注目されています。スケーラビリティと多様なデータ管理機能を兼ね備えたクラウドデータレイクは、現代のデータ分析ニーズにマッチする技術として、データの重要性が増す昨今、多くの企業の関心を集めています。本書は、クラウドデータレイクのセットアップ、管理、ガバナンスについて、包括的に解説した実践的なガイドです。設計におけるポイントやベストプラクティス、データフォーマットとパフォーマンスの最適化、コスト管理、セキュリティなど、クラウドデータレイクの構築方法を、架空の組織をモデルにわかりやすく解説します。クラウドデータレイクの構築とデータアーキテクチャの実践的なノウハウをコンパクトにまとめた1冊です。

正誤表

書籍発行後に気づいた誤植や更新された情報を掲載しています。お手持ちの書籍では、すでに修正が施されている場合がありますので、書籍最終ページの奥付でお手持ちの書籍の刷数をご確認の上、ご利用ください。

第1刷正誤表

2025年9月更新

■P.44　「2.3 モダンデータウェアハウスアーキテクチャ」2行目
【誤】互いに保管し合いながら
【正】互いに補完し合いながら

■P.47　3段落8行目
【誤】データエンジニアリングチム
【正】データエンジニアリングチーム

■P.65　2行目
【誤】デー保持
【正】データ保持

■P.68　13行目
【誤】EUI固有の要件
【正】EU固有の要件

■P.143　6行目
【誤】アプリケーションもスケーリングンの単位を
【正】アプリケーションもスケーリングの単位を

■P.151　中央の段落（赤字箇所を追加）
【誤】
生産ライン方式では、個々のワーカーは1つのタスクだけを行い、自分のタスクが終わったら次のワーカーに作りかけのサンドイッチを渡していくという異なる生産モデルを採用しているので、かかる時間も異なります。この場合、ワーカー1は2個のサンドイッチのためにパンをトーストすると、次の2個分のトーストに移ります。その間に、最初の2個の作りかけのサンドイッチは第2、第3のワーカーに渡され、それぞれピーナツバターとジャムが塗られます。
【正】
生産ライン方式では、個々のワーカーは1つのタスクだけを行い、自分のタスクが終わったら次のワーカーに作りかけのサンドイッチを渡していくという異なる生産モデルを採用しているので、かかる時間も異なります。複数のワーカーが同時にタスクを行うことができるため、ステップ2やステップ3は並列処理が可能です。この場合、ワーカー1は2個のサンドイッチのためにパンをトーストすると、次の2個分のトーストに移ります。その間に、最初の2個の作りかけのサンドイッチは第2、第3のワーカーに渡され、それぞれピーナツバターとジャムが塗られます（つまり、パン1にピーナツバター、パン2にジャムを別々のワーカーが同時に塗ることができます）。

■P.151　表5-2　サンドイッチ2のステップ3
【誤】
00:40-00:45
【正】
00:30-00:35

■P.151　表5-2　サンドイッチ4のステップ3
【誤】
01:10-01:15
【正】
01:00-01:05

■P.200　13行目
【誤】最新のデータを取り出すするための
【正】最新のデータを取り出すための

■P.230　5行目
【誤】2002年5月までにインポートの
【正】2022年5月までにインポートの

推薦の言葉
監訳者まえがき
はじめに

1章　現実のものとなったビッグデータ戦略
    1.1　ビッグデータとは何か
    1.2　弾力性の高いデータインフラストラクチャ：課題
    1.3　クラウドコンピューティングの基礎
        1.3.1　クラウドコンピューティングの用語
        1.3.2　クラウドの特徴
    1.4　クラウドデータレイクのアーキテクチャ
        1.4.1　オンプレミスデータウェアハウスというソリューションの限界
        1.4.2　クラウドデータレイクアーキテクチャとは何か
        1.4.3　クラウドデータレイクアーキテクチャの利点
    1.5　クラウドデータレイク導入の道筋
    1.6　まとめ

2章　クラウド上のビッグデータアーキテクチャ
    2.1　クロダースコーポレーションがクラウドに移行しようとしている理由
    2.2　クラウドデータレイクアーキテクチャを理解するための基礎知識
        2.2.1　データの多様性を表す用語
        2.2.2　クラウドデータレイクストレージ
        2.2.3　ビッグデータアナリティクスエンジン
        2.2.4　クラウドデータウェアハウス
    2.3　モダンデータウェアハウスアーキテクチャ
        2.3.1　代表的なアーキテクチャ
        2.3.2　モダンデータウェアハウスアーキテクチャのユースケース例
        2.3.3　モダンデータウェアハウスアーキテクチャの利点と課題
    2.4　データレイクハウスアーキテクチャ
        2.4.1　代表的なアーキテクチャ
        2.4.2　データレイクハウスアーキテクチャのユースケース例
        2.4.3　データレイクハウスアーキテクチャの利点と課題
        2.4.4　データウェアハウスと非構造化データ
    2.5　データメッシュ
        2.5.1　代表的なアーキテクチャ
        2.5.2　データメッシュアーキテクチャのユースケース例
        2.5.3　データメッシュアーキテクチャの利点と課題
    2.6　自分にとって適切なアーキテクチャは何か
        2.6.1　顧客を知る
        2.6.2　ビジネスドライバーを知る
        2.6.3　会社の成長と将来のシナリオを考慮する
        2.6.4　設計について考慮すべきこと
        2.6.5　ハイブリッドアプローチ
    2.7　まとめ

3章　クラウドデータレイクソリューションの設計で考慮すべきこと
    3.1　クラウドデータレイクのインフラストラクチャの準備
        3.1.1　現状評価と目標設定
        3.1.2　アーキテクチャと成果物の設計/定義
        3.1.3　クラウドデータレイクの実装
        3.1.4　リリース、運用化
    3.2　データレイクのデータの整理
        3.2.1　データの生涯におけるある1 日
        3.2.2　データレイクゾーン
        3.2.3　データ整理のメカニズム
    3.3　データガバナンス入門
        3.3.1　データガバナンスを担うアクター
        3.3.2　データの分類
        3.3.3　メタデータ管理、データカタログ、データ共有
        3.3.4　データのアクセス管理
        3.3.5　データの品質とオブザーバビリティ
        3.3.6　クロダースコーポレーションにおけるデータガバナンス
        3.3.7　データガバナンスのまとめ
    3.4　データレイクのコスト管理
        3.4.1　クラウドデータレイクのコストの謎解き
        3.4.2　データレイクのコスト戦略
    3.5　まとめ

4章　スケーラブルなデータレイク
    4.1　まずはスケーラビリティから
        4.1.1　スケーラビリティとは何か
        4.1.2　日常生活におけるスケーラビリティ
        4.1.3　データレイクアーキテクチャにおけるスケーラビリティ
    4.2　データレイク処理システムの内部構造
        4.2.1　データコピーの内側
        4.2.2　ETL/ELT処理の内側
        4.2.3　対話型クエリに関するその他注意事項
    4.3　データレイクソリューションをスケーラブルなものにするために考えるべきこと
        4.3.1　適切なクラウド製品の選択
        4.3.2　キャパシティプランニング
        4.3.3　データ形式とジョブプロファイル
    4.4　まとめ

5章　クラウドデータレイクアーキテクチャのパフォーマンスの最適化
    5.1　パフォーマンス計測の基礎
        5.1.1　パフォーマンスの目標と指標
        5.1.2　パフォーマンスの計測
        5.1.3　スピードアップのための最適化
    5.2　クラウドデータレイクのパフォーマンス
        5.2.1　SLA、SLO、SLI
        5.2.2　クロダースコーポレーションはSLA、SLO、SLI をどのように管理しているか
    5.3　パフォーマンスドライバー
        5.3.1　コピージョブのパフォーマンスドライバー
        5.3.2　Sparkジョブのパフォーマンスドライバー
    5.4　パフォーマンスチューニングの原則とテクニック
        5.4.1　データ形式
        5.4.2　データの整理方法とパーティショニング
        5.4.3　Apache Sparkの適切な構成の選択
    5.5　データ転送のオーバーヘッドの削減
    5.6　プレミアム製品とパフォーマンス
        5.6.1　より大規模な仮想マシン
        5.6.2　フラッシュストレージ
    5.7　まとめ

6章　データ形式詳説
    6.1　なぜオープンデータ形式が必要なのか
        6.1.1　なぜ表形式のデータを格納する必要があるのか
        6.1.2　クラウドデータレイクストレージに表形式データを格納することがなぜ問題になるのか
    6.2　Delta Lake
        6.2.1　Delta Lakeはなぜ作られたのか
        6.2.2　Delta Lakeはどのような仕組みになっているのか
        6.2.3　Delta Lakeが適しているのはどのようなときか
    6.3　Apache Iceberg
        6.3.1　Apache Icebergはなぜ作られたのか
        6.3.2　Apache Icebergはどのような仕組みになっているのか
        6.3.3　Apache Icebergが適しているのはどのようなときか
    6.4　Apache Hudi
        6.4.1　Apache Hudiはなぜ作られたのか
        6.4.2　Apache Hudiはどのような仕組みになっているのか
        6.4.3　Apache Hudiが適しているのはどのようなときか
    6.5　まとめ

7章　アーキテクチャに関する意思決定のフレームワーク
    7.1　クラウドデータレイクへの投資のための現状評価と目標設定
        7.1.1　クラウドデータレイクへの投資のための現状評価アンケート
    7.2　現状評価アンケート
        7.2.1　白紙状態からのスタート
        7.2.2　オンプレミスのデータレイクまたはデータウェアハウスからクラウドへの移行
        7.2.3　既存のクラウドデータレイクの改良
    7.3　意思決定フレームワークフェーズ1：現状評価/目標設定
        7.3.1　顧客の要件の理解
        7.3.2　改善チャンスの理解
        7.3.3　ビジネスドライバーを把握する
        7.3.4　現状評価/目標設定フェーズを締めくくる要件の優先順位付け
    7.4　意思決定フレームワークフェーズ2：設計/定義
        7.4.1　クラウドデータレイクの設計の技術的選択肢の確定
        7.4.2　クラウドデータレイクプロジェクトの成果物のプラン
    7.5　意思決定フレームワークフェーズ3：実装
    7.6　意思決定フレームワークフェーズ4：運用化
    7.7　まとめ

8章　データに基づいて意思決定や戦略を形成するアプローチのための6つの手段
    8.1　第1講：クラウドデータの導入は「必要か？」や「なぜ？」ではなく「いつ？」、「どのようにして？」という問題だ
    8.2　第2講：偉大なる力には偉大なる責任がともなう――データもその例外ではない
    8.3　第3講：テクノロジーを主導するのは顧客であり、逆ではない
    8.4　第4講：変化は避けられないので準備を怠らず
    8.5　第5講：顧客の感覚を理解するとともに手掛ける仕事には容赦なく優先順位をつけよう
    8.6　第6講：ローマは1日にしてならず
    8.7　まとめ

付録　Aクラウドデータレイク意思決定フレームワークのテンプレート
    A.1　フェーズ1：現状評価/目標設定
    A.2　フェーズ2：設計/定義
        A.2.1　クラウドデータレイク実装の成果物のプランニング
    A.3　フェーズ3：実装

索引

コラム目次
    クラウドデータレイクハウスへの発展
    データの品質とオブザーバビリティ

クラウドデータレイク

正誤表

第1刷正誤表

目次

関連書籍