大規模データ管理 第2版

―データ管理と活用のためのモダンなデータアーキテクチャパターン

[cover photo]
TOPICS
Database
発行年月日
PRINT LENGTH
404
ISBN
978-4-8144-0071-3
原書
Data Management at Scale, 2nd Edition
FORMAT
Print PDF EPUB
Ebook
4,180円
Ebookを購入する
Print
4,180円

今日では、データを素早く価値に変換することが求められています。一方、人工知能、クラウド化、マイクロサービスといった新しいソフトウェア提供モデルが、データ管理の方法を根本から変革しようとしています。組織は、分散化が避けられない現実に直面し、責任の分散、データの管理手法、そしてデータの他者への提供方法に関する変革を迫られています。
本書では、将来にわたり堅牢かつスケーラブルなデータ管理を実現するために、組織のニーズを踏まえた次世代データアーキテクチャの設計方法について説明します。また、法規制、プライバシーに関する懸念、データメッシュやデータファブリックなどの新しい技術動向を紹介し、クラウドデータランディングゾーン、ドメイン駆動設計、データプロダクトといった最先端のデータアーキテクチャについて解説します。さらに、データガバナンス、データセキュリティ、マスターデータ管理、セルフサービス型データマーケットプレイス、メタデータの重要性などについても説明します。

目次

訳者まえがき
まえがき
はじめに

1章 データ駆動型への旅
    1.1 最近のテクノロジーの発展と業界動向
    1.2 データ管理
    1.3 分析によるデータランドスケープの断片化
    1.4 ソフトウェアの提供速度の変化
    1.5 クラウドがデータ管理に与える影響は計り知れない
    1.6 プライバシーとセキュリティは最優先事項
    1.7 運用システムと分析システムの統合の必要性
    1.8 組織は共同エコシステムで運営される
    1.9 企業を悩ます時代遅れのデータアーキテクチャ
        1.9.1 エンタープライズデータウェアハウス:信頼できる唯一の情報源
        1.9.2 データレイク:構造化データと非構造化データに対する中央リポジトリ
        1.9.3 中央集権の苦しみ
    1.10 データ戦略の定義
    1.11 まとめ

2章 データドメインを利用したデータの整理
    2.1 アプリケーション設計の出発点
        2.1.1 アプリケーションはそれぞれデータストアを持つ
        2.1.2 アプリケーションは常に一意である
        2.1.3 ゴールデンソース
        2.1.4 データ統合のジレンマ
        2.1.5 アプリケーションの役割
    2.2 ソフトウェアアーキテクチャからの発想
    2.3 データドメイン
        2.3.1 ドメイン駆動設計
        2.3.2 ビジネスアーキテクチャ
        2.3.3 ドメインの特性
    2.4 分散型ドメイン指向データ管理の原則
        2.4.1 データドメインの設計原則
        2.4.2 データプロバイダーのベストプラクティス
        2.4.3 ドメインオーナーシップの責務
    2.5 分散型ドメイン指向データ管理への移行
    2.6 まとめ

3章 ドメインとテクノロジーアーキテクチャのマッピング
    3.1 ドメイントポロジー:問題空間の管理
        3.1.1 完全連合型ドメイントポロジー
        3.1.2 統制ドメイントポロジー
        3.1.3 部分連合型ドメイントポロジー
        3.1.4 バリューチェーン整合ドメイントポロジー
        3.1.5 粗視化ドメイントポロジー
        3.1.6 粗視化・部分統制ドメイントポロジー
        3.1.7 中央集権型ドメイントポロジー
        3.1.8 正しいトポロジーの選択
    3.2 ランディングゾーントポロジー:解決空間の管理
        3.2.1 単一データランディングゾーン
        3.2.2 ソース整合ランディングゾーンとコンシューマ整合ランディングゾーン
        3.2.3 ハブデータランディングゾーン
        3.2.4 複数データランディングゾーン
        3.2.5 複数データ管理ランディングゾーン
        3.2.6 実践的なランディングゾーンの例
    3.3 まとめ

4章 データプロダクト管理
    4.1 データプロダクトとは何か
        4.1.1 コード、データ、メタデータ、インフラストラクチャーを組み合わせる際の課題
        4.1.2 論理エンティティとしてのデータプロダクト
    4.2 データプロダクトのデザインパターン
        4.2.1 CQRS とは何か
        4.2.2 データプロダクトとしての読み出しレプリカ
    4.3 データプロダクトの設計原則
        4.3.1 リソース指向の読み出し最適化設計
        4.3.2 データプロダクトのデータは不変
        4.3.3 ユビキタス言語の使用
        4.3.4 ソースから直接取り込む
        4.3.5 相互運用標準の明確化
        4.3.6 生データは使わない
        4.3.7 コンシューマに合わせない
        4.3.8 欠測値、デフォルト値、データ型
        4.3.9 意味的一貫性
        4.3.10 不可分性
        4.3.11 互換性
        4.3.12 抽象的な揮発性参照データ
        4.3.13 新しいデータは新しいオーナーシップを意味する
        4.3.14 データセキュリティパターン
        4.3.15 メタモデルの確立
        4.3.16 セルフサービスの許可
        4.3.17 クロスドメインの関係
        4.3.18 企業の一貫性
        4.3.19 履歴化、再配信、上書き
        4.3.20 複数のオーナーを持つビジネスケイパビリティ
        4.3.21 運用モデル
    4.4 データプロダクトアーキテクチャ
        4.4.1 高レベルのプラットフォーム設計
        4.4.2 データの取り込みと導入のための機能
        4.4.3 データ品質
        4.4.4 データの履歴化
    4.5 ソリューション設計
        4.5.1 実世界での例
        4.5.2 ストレージアカウントとの整合性
        4.5.3 データパイプラインとの整合性
        4.5.4 データ提供のための機能
        4.5.5 データ提供サービス
        4.5.6 ファイル操作サービス
        4.5.7 匿名化サービス
        4.5.8 分散オーケストレーション
        4.5.9 インテリジェントな消費サービス
        4.5.10 直接利用に関する考察
    4.6 始めるにあたって
    4.7 まとめ

5章 サービスとAPI 管理
    5.1 API 管理の紹介
    5.2 サービス指向アーキテクチャとは
        5.2.1 エンタープライズアプリケーション統合
        5.2.2 サービスオーケストレーション
        5.2.3 サービスコレオグラフィ
        5.2.4 パブリックサービスとプライベートサービス
        5.2.5 サービスモデルとカノニカルデータモデル
        5.2.6 エンタープライズデータウェアハウスアーキテクチャとの類似性
    5.3 API 管理に対する最新の考え方
        5.3.1 連合型責任モデル
        5.3.2 API ゲートウェイ
        5.3.3 プロダクトとしてのAPI
        5.3.4 複合サービス
        5.3.5 API 契約
        5.3.6 API ディスカバラビリティ
    5.4 マイクロサービス
        5.4.1 機能(Function)
        5.4.2 サービスメッシュ
        5.4.3 マイクロサービスドメイン境界
    5.5 エコシステム通信
    5.6 エクスペリエンスAPI
        5.6.1 GraphQL
        5.6.2 フロントエンドのためのバックエンド
    5.7 実例
    5.8 メタデータ管理
    5.9 データプロダクトを提供する読み出し指向API
    5.10 まとめ

6章 イベントと通知の管理
    6.1 イベントの紹介
        6.1.1 通知と状態転送
        6.1.2 非同期通信モデル
    6.2 最新のイベント駆動型アーキテクチャとは
        6.2.1 メッセージキュー
        6.2.2 イベントブローカー
        6.2.3 イベント処理スタイル
        6.2.4 イベントプロデューサー
        6.2.5 イベントコンシューマ
        6.2.6 イベントストリーミングプラットフォーム
        6.2.7 ガバナンスモデル
        6.2.8 データプロダクトストアとしてのイベントストア
        6.2.9 アプリケーションバックエンドとしてのイベントストア
    6.3 バックボーンとしてのストリーミング
    6.4 保証と一貫性
        6.4.1 一貫性(整合性)レベル
        6.4.2 処理方法
        6.4.3 メッセージ順序
        6.4.4 デッドレターキュー
        6.4.5 ストリーミングの相互運用性
    6.5 ガバナンスとセルフサービス
    6.6 まとめ

7章 すべてをまとめる
    7.1 クロスドメイン相互運用性
        7.1.1 簡単な振り返り
        7.1.2 データ流通とアプリケーション統合の比較
        7.1.3 データ流通パターン
        7.1.4 アプリケーション統合パターン
        7.1.5 一貫性とディスカバラビリティ
    7.2 変革のための刺激、動機付け、指導
        7.2.1 ドメイン境界の設定
        7.2.2 例外処理
    7.3 組織の変革
        7.3.1 チームトポロジー
        7.3.2 組織計画
    7.4 まとめ

8章 データガバナンスとデータセキュリティ
    8.1 データガバナンス
        8.1.1 ガバナンスフレームワーク
        8.1.2 プロセス:データガバナンス活動
        8.1.3 効果的で実用的なガバナンスの実現
        8.1.4 データガバナンス支援サービス
        8.1.5 データ契約
    8.2 データセキュリティ
        8.2.1 サイロ化した現在のやり方
        8.2.2 信頼境界
        8.2.3 データ分類とラベル
        8.2.4 データ利用分類
        8.2.5 統合データセキュリティ
        8.2.6 ID プロバイダー
        8.2.7 実際の例
        8.2.8 典型的なセキュリティプロセスの流れ
        8.2.9 API ベースアーキテクチャのセキュリティ
        8.2.10 イベント駆動型アーキテクチャのセキュリティ
    8.3 まとめ

9章 メタデータによるデータの民主化
    9.1 メタデータ管理
    9.2 エンタープライズメタデータモデル
        9.2.1 メタモデルの実例
        9.2.2 データドメインとデータプロダクト
        9.2.3 データモデル
        9.2.4 データリネージ
        9.2.5 そのほかのメタデータ領域
    9.3 メタレイクアーキテクチャ
        9.3.1 カタログの役割
        9.3.2 ナレッジグラフの役割
    9.4 まとめ

10章 最新のマスターデータ管理
    10.1 マスターデータ管理のスタイル
    10.2 データ統合
    10.3 マスターデータ管理ソリューションの設計
    10.4 ドメイン指向マスターデータ管理
        10.4.1 参照データ
        10.4.2 マスターデータ
        10.4.3 サービスとしてのMDM とデータ品質
    10.5 MDM とデータキュレーション
        10.5.1 知識の交換
        10.5.2 統合ビュー
        10.5.3 再利用可能なコンポーネントと統合ロジック
        10.5.4 統合ハブによるデータの再発行
        10.5.5 集約によるデータの再発行
    10.6 データガバナンスに関する推奨事項
    10.7 まとめ

11章 データを価値に変える
    11.1 データを価値に変えることの課題
    11.2 ドメインデータストア
        11.2.1 コンシューマ整合ユースケースの粒度
        11.2.2 DDS とデータプロダクトの比較
    11.3 ベストプラクティス
        11.3.1 ビジネス要件
        11.3.2 対象者と運用モデル
        11.3.3 非機能要件
        11.3.4 データパイプラインとデータモデル
        11.3.5 DDS が果たす役割の検討
    11.4 ビジネスインテリジェンス
        11.4.1 セマンテックレイヤー
        11.4.2 セルフサービスツールとデータ
        11.4.3 ベストプラクティス
    11.5 アドバンストアナリティクス(MLOps)
        11.5.1 プロジェクトの開始
        11.5.2 実験と記録
        11.5.3 データエンジニアリング
        11.5.4 モデルの運用
        11.5.5 例外
    11.6 まとめ

12章 理論の実践
    12.1 データの旅についての振り返り
    12.2 中央集権型か非中央集権型か
    12.3 実現に向けて
        12.3.1 戦略フェーズ:戦略的方向性の策定
        12.3.2 変換フェーズ:基盤の整備
        12.3.3 最適化フェーズ:ケイパビリティの高度化
    12.4 データ駆動型カルチャー
        12.4.1 DataOps
        12.4.2 ガバナンスとリテラシー
    12.5 エンタープライズアーキテクトの役割
        12.5.1 ブループリントとダイアグラム
        12.5.2 最新のスキル
        12.5.3 コントロールとガバナンス
    12.6 最後に

索引