ビッグデータ時代とも言われる昨今においては、膨大なデータをビジネスの枠組みの中に組み込んで活用することが重要課題となっています。つまり、データ収集を行ってビジネスの全体像を把握し、適切なデータ分析を行って正確な予測をした上でビジネス戦略を決めることが求められています。本書は、データをビジネスに活かすために身に付けておくべき基本的な考え方と、データマイニングやモデリングの根底に存在するコンセプトについて、体系的に解説しています。データサイエンスの重要性とその威力を学べる一冊です。
戦略的データサイエンス入門
―ビジネスに活かすコンセプトとテクニック
Foster Provost、Tom Fawcett 著、竹田 正和 監訳、古畠 敦、瀬戸山 雅人、大木 嘉人、藤野 賢祐、宗定 洋平、西谷 雅史、砂子 一徳、市川 正和、佐藤 正士 訳
- TOPICS
- Data Science , Database
- 発行年月日
- 2014年07月
- PRINT LENGTH
- 456
- ISBN
- 978-4-87311-685-3
- 原書
- Data Science for Business
- FORMAT
- Print PDF
目次
訳者前書き はじめに 1章 はじめに:データ分析思考 1.1 データを使ったビジネスチャンスの広がり 1.2 例:ハリケーン・フランシス 1.3 例:顧客の乗り換えの予測 1.4 データサイエンス、エンジニアリング、そしてデータ主導による意思決定 1.5 データ処理とビッグデータ 1.6 ビッグデータ1.0からビッグデータ2.0へ 1.7 戦略的資産としてのデータとデータサイエンス 1.8 データ分析思考 1.9 この本について 1.10 再びデータマイニングとデータサイエンスについて 1.11 化学とは試験管について学ぶことではない:データサイエンスとデータサイエンティストの仕事について 1.12 まとめ 2章 ビジネス問題とデータサイエンスが提供するソリューション 2.1 ビジネスの問題をデータマイニングタスクへ 2.2 教師あり手法と教師なし手法 2.3 データマイニングとその成果 2.4 データマイニングプロセス 2.4.1 ビジネスの理解 2.4.2 データの理解 2.4.3 データの準備 2.4.4 モデリング 2.4.5 評価 2.4.6 適用 2.5 データサイエンスチームを管理するということ 2.6 他の分析手法や分析技術 2.6.1 統計学 2.6.2 データベースクエリ 2.6.3 データウェアハウス 2.6.4 回帰分析 2.6.5 機械学習とデータマイニング 2.6.6 さまざまな技法を活用したビジネス問題の解決 2.7 まとめ 3章 予測モデリング:相関から教師ありセグメンテーションへ 3.1 モデル、帰納法、予測 3.2 教師ありセグメンテーション 3.2.1 情報価値の高い有用な属性を選び出す 3.2.2 例:情報利得を使った属性選択 3.2.3 木構造モデルを使った教師ありセグメンテーション 3.3 セグメンテーションの視覚化 3.4 ルールの集まりとしてのツリー 3.5 確率推定 3.6 例:ツリー帰納法で解く乗り換え問題 3.7 まとめ 4章 モデルをデータにフィットさせる 4.1 数学関数を使った分類 4.1.1 線形判別関数 4.1.2 目的関数の最適化 4.1.3 データから線形判別器を見つけ出す例 4.1.4 インスタンスを採点しランク付けするための線形判別関数 4.1.5 サポートベクターマシン 4.2 数学関数を使った回帰 4.3 クラス確率推定とロジスティック「回帰」 4.3.1 *ロジスティック回帰:理論的詳細 4.4 例:ロジスティック回帰vsツリー帰納法 4.5 非線形関数、サポートベクターマシン、ニューラルネットワーク 4.6 まとめ 5章 オーバーフィッティングとその回避方法 5.1 汎化 5.2 オーバーフィッティング 5.3 検証・オーバーフィッティング 5.3.1 ホールドアウトデータとフィッティンググラフ 5.3.2 ツリー帰納法におけるオーバーフィッティング 5.3.3 数学関数のオーバーフィッティング 5.4 例:線形関数のオーバーフィッティング 5.5 * 例:オーバーフィッティングはなぜいけないのか 5.6 ホールドアウト評価から交差検証へ 5.7 乗り換えデータセット再び 5.8 学習曲線 5.9 オーバーフィッティングの回避と複雑性のコントロール 5.9.1 ツリー帰納法におけるオーバーフィッティングの回避 5.9.2 オーバーフィッティングを回避する一般的な方法 5.9.3 * オーバーフィッティングを回避してパラメータを最適化する 5.10 まとめ 6章 類似度、近傍、クラスタ 6.1 類似度と距離 6.2 最近傍を使った推論 6.2.1 例:ウィスキーを分析する 6.2.2 予測モデリングのための最近傍 6.2.3 近傍の数とその影響はどれくらいか 6.2.4 幾何的解釈、オーバーフィッティング、複雑性のコントロール 6.2.5 最近傍法の問題点 6.3 類似度と近傍に関連する重要な技法の詳細について 6.3.1 異質な属性 6.3.2 * その他の距離関数 6.3.3 * 結合関数:近傍を使って評価する 6.4 クラスタリング 6.4.1 例:再びウィスキーの分析 6.4.2 階層的クラスタリング 6.4.3 最近傍を再び:セントロイドを取り囲むクラスタリング 6.4.4 例:ビジネスニュース記事をクラスタリングする 6.4.5 クラスタリングの結果を理解する 6.4.6 * 教師あり学習を使ってクラスタの説明を生成する 6.5 本題に戻る:ビジネス上の課題解決とデータ探索 6.6 まとめ 7章 意思決定のための分析思考I:良いモデルとは何か 7.1 分類器の評価 7.1.1 単純な精度とその問題点 7.1.2 混同行列 7.1.3 偏ったクラスに関する問題 7.1.4 等しくないコストと利益についての問題 7.2 分類を越えて一般化する 7.3 重要な分析フレームワーク:期待値 7.3.1 分類器を使うための枠組みとして期待値を使う 7.3.2 分類器を評価するために期待値を使う 7.4 評価、基準性能、データに対する投資への示唆 7.5 まとめ 8章 モデル性能の可視化 8.1 分類ではなく、ランク付けを行う 8.2 利益曲線 8.3 ROCグラフと曲線 8.4 ROC曲線の下の面積(AUC) 8.5 累積反応とリフト曲線 8.6 例:乗り換えモデリングの性能分析 8.7 まとめ 9章 エビデンスと確率 9.1 例:オンライン消費者を対象とした広告 9.2 確率論的にエビデンスを結合する 9.2.1 結合確率と独立性 9.2.2 ベイズの法則 9.3 ベイズの法則をデータサイエンスへ応用する 9.3.1 条件付き独立と単純ベイズ 9.3.2 単純ベイズのメリットとデメリット 9.4 エビデンスの「リフト値」のモデル 9.5 例:Facebookの「いいね!」から求めるエビデンスのリフト値 9.5.1 エビデンスの実践:広告で対象とする消費者を絞る 9.6 まとめ 10章 テキスト表現とテキストマイニング 10.1 なぜテキストが重要なのか 10.2 なぜテキストは難しいのか 10.3 テキスト表現 10.3.1 Bag-of-Words 10.3.2 用語出現頻度 10.3.3 希少性の測定:逆文書頻度 10.3.4 手法の組み合わせ:TFIDF 10.4 例:ジャズミュージシャン 10.5 *エントロピーとIDFの関係 10.6 Bag-of-Wordsを超えて 10.6.1 N-gramシーケンス 10.6.2 固有表現抽出 10.6.3 トピックモデル 10.7 例:株価変動予測のためにニュース記事をマイニングする 10.7.1 タスク(課題) 10.7.2 データ 10.7.3 データ前処理 10.7.4 結果 10.8 まとめ 11章 意思決定のための分析思考Ⅱ:分析思考から分析工学へ 11.1 寄付金の最大化を目標とする 11.1.1 期待値フレームワーク:ビジネス上の問題を分解し、それぞれの解決策を再構成する 11.1.2 選択バイアスについての余談 11.2 より洗練したやり方で乗り換え問題を再考する 11.2.1 期待値フレームワーク:より複雑なビジネス上の問題を構造化する 11.2.2 インセンティブの影響を評価する 11.2.3 期待値の分解からデータサイエンスソリューションへ 11.3 まとめ 12章 その他のデータサイエンスの問題と技法 12.1 共起とアソシエーション:一緒に発生する項目の見つけ方 12.1.1 意外性の測定:リフトとレバレッジ 12.1.2 例:ビールと宝くじ 12.1.3 Facebookのいいね!におけるアソシエーション 12.2 プロファイリング:典型的な行動の見つけ方 12.3 リンク予測とソーシャルレコメンド 12.4 データ削減、潜在的情報、映画のレコメンデーション 12.5 偏り、分散、アンサンブル手法 12.6 データ主導による原因説明とバイラルマーケティングの例 12.7 まとめ 13章 データサイエンスとビジネス戦略 13.1 再考:データ分析的な思考とは 13.2 データサイエンスで競合優位になる 13.3 データサイエンスの優位性を維持する 13.3.1 蓄積された優位性の威力 13.3.2 独自の知的財産 13.3.3 独自の付随的な無形資産 13.3.4 優秀なデータサイエンティストたち 13.3.5 データサイエンスのマネジメント力 13.4 データサイエンティストとそのチームを惹き付け育てる 13.5 データサイエンス事例の評価 13.6 さまざまな人の意見に耳を傾ける 13.7 データサイエンスプロジェクトの提案についての評価 13.7.1 データマイニングによるビジネス改善提案の事例 13.7.2 Big Red社の提案の問題点 13.8 データサイエンスに関する習熟度 14章 おわりに 14.1 データサイエンスの基本コンセプト 14.1.1 基本コンセプトを新しい課題に適用する:モバイルデバイスデータのマイニング 14.1.2 ビジネス上の課題への解決策の考え方を変える 14.2 データができないこと:人間を内部に含んだ(Humans in the Loop)モデルを再考する 14.3 プライバシー、倫理、そして個人データのマイニングについて 14.4 さらなるデータサイエンスの情報について 14.5 最後の例:クラウド(Crowd)ソーシングからクラウド(Cloud)ソーシングへ 14.6 最後に 付録A 提案レビューのガイド A.1 ビジネスとデータの理解 A.2 データの準備 A.3 モデリング A.4 評価と展開 付録B その他の提案例 B.1 シナリオと提案 B.1.1 GGCの提案における欠点 付録C 用語辞書 参考文献 索引