データサイエンスのための統計学入門

予測、分類、統計モデリング、統計的機械学習とRプログラミング

内容

データサイエンスに必要な統計学と機械学習の重要な50の基本概念と、関連する用語について、簡潔な説明と、それを裏付ける最低限の数式、クリアな可視化、実現するRコードを提示して、多方面からの理解を促します。データの分類、分析、モデル化、予測という一連のデータサイエンスのプロセスにおいて統計学のどの項目が必要か、どの項目が不必要かを示し、重要な項目について、その概念、数学的裏付け、プログラミングの各側面からアプローチします。データサイエンスに必要な項目を効率よく学べて、深く理解することが可能です。

関連書籍

目次

日本語版まえがき
訳者まえがき

まえがき

1章 探索的データ分析
    1.1 構造化データの諸要素
        1.1.1 さらに学ぶために
    1.2 矩形データ
        1.2.1 データフレームとインデックス付け
        1.2.2 非矩形データ
        1.2.3 さらに学ぶために
    1.3 位置の推定
        1.3.1 平均値
        1.3.2 中央値と頑健推定
        1.3.3 例:人口と殺人事件発生率の代表値の推定
        1.3.4 さらに学ぶために
    1.4 散らばりの推定
        1.4.1 標準偏差と関連推定値
        1.4.2 パーセンタイルに基づく推定値
        1.4.3 例:州別人口の散らばりの推定
        1.4.4 さらに学ぶために
    1.5 データ分布の探索
        1.5.1 パーセンタイルと箱ひげ図
        1.5.2 度数分布表とヒストグラム
        1.5.3 密度推定
        1.5.4 さらに学ぶために
    1.6 バイナリデータとカテゴリデータの探索
        1.6.1 最頻値(モード)
        1.6.2 期待値
        1.6.3 さらに学ぶために
    1.7 相関
        1.7.1 散布図
        1.7.2 さらに学ぶために
    1.8 2つ以上の変量の探索
        1.8.1 六角ビニングと等高線(2つの数値データをプロット)
        1.8.2 2つのカテゴリ変数の探索
        1.8.3 カテゴリデータと数量データ
        1.8.4 多変量の可視化
        1.8.5 さらに学ぶために
    1.9 まとめ

2章 データと標本の分布
    2.1 無作為抽出と標本バイアス
        2.1.1 バイアス
        2.1.2 無作為抽出
        2.1.3 サイズと品質:サイズが問題になる場合
        2.1.4 標本平均と母集団平均
        2.1.5 さらに学ぶために
    2.2 選択バイアス
        2.2.1 平均への回帰
        2.2.2 さらに学ぶために
    2.3 統計量の標本分布
        2.3.1 中心極限定理
        2.3.2 標準誤差
        2.3.3 さらに学ぶために
    2.4 ブートストラップ
        2.4.1 リサンプリングとブートストラップ
        2.4.2 さらに学ぶために
    2.5 信頼区間
        2.5.1 さらに学ぶために
    2.6 正規分布
        2.6.1 標準正規分布とQQプロット
    2.7 ロングテールの分布
        2.7.1 さらに学ぶために
    2.8 スチューデントの t分布
        2.8.1 さらに学ぶために
    2.9 二項分布
        2.9.1 さらに学ぶために
    2.10 ポアソン分布と関連する分布
        2.10.1 ポアソン分布
        2.10.2 指数分布
        2.10.3 故障率の推定
        2.10.4 ワイブル分布
        2.10.5 さらに学ぶために
    2.11 まとめ

3章 統計実験と有意性検定
    3.1 A/Bテスト
        3.1.1 なぜ統制群があるか
        3.1.2 なぜ A/Bだけで C、D、…でないのか
        3.1.3 さらに学ぶために
    3.2 仮説検定
        3.2.1 帰無仮説
        3.2.2 対立仮説
        3.2.3 片側、両側仮説検定
        3.2.4 さらに学ぶために
    3.3 リサンプリング
        3.3.1 並べ替え検定
        3.3.2 例: Web粘着性
        3.3.3 完全並べ替え検定とブートストラップ並べ替え検定
        3.3.4 並べ替え検定:データサイエンスの基本
        3.3.5 さらに学ぶために
    3.4 統計的有意性と p値
        3.4.1 p値
        3.4.2 アルファ
        3.4.3 第一種の過誤と第二種の過誤
        3.4.4 データサイエンスと p値
        3.4.5 さらに学ぶために
    3.5 t検定
        3.5.1 さらに学ぶために
    3.6 多重検定
        3.6.1 さらに学ぶために
    3.7 自由度
        3.7.1 さらに学ぶために
    3.8 ANOVA
        3.8.1 F統計量
        3.8.2 二元配置分散分析(二元 ANOVA)
        3.8.3 さらに学ぶために
    3.9 カイ二乗検定
        3.9.1 カイ二乗検定:リサンプリング方式
        3.9.2 カイ二乗検定:統計理論
        3.9.3 フィッシャーの正確確率検定
        3.9.4 データサイエンスへの関わり
        3.9.5 さらに学ぶために
    3.10 多腕バンディットアルゴリズム
        3.10.1 さらに学ぶために
    3.11 検定力とサンプルサイズ
        3.11.1 サンプルサイズ
        3.11.2 さらに学ぶために
    3.12 まとめ

4章 回帰と予測
    4.1 単回帰
        4.1.1 回帰式
        4.1.2 予測値と残差
        4.1.3 最小二乗法
        4.1.4 予測と説明(プロファイリング)
        4.1.5 さらに学ぶために
    4.2 重回帰
        4.2.1 例:キング郡住宅データ
        4.2.2 モデルの評価
        4.2.3 交差検証
        4.2.4 モデル選択と段階的回帰
        4.2.5 加重回帰
        4.2.6 さらに学ぶために
    4.3 回帰を使った予測
        4.3.1 外挿の危険性
        4.3.2 信頼区間と予測区間
    4.4 回帰でのファクタ変数
        4.4.1 ダミー変数表現
        4.4.2 多水準のファクタ変数
        4.4.3 順序ファクタ変数
    4.5 回帰式の解釈
        4.5.1 相関予測変数
        4.5.2 多重共線性
        4.5.3 交絡変数
        4.5.4 交互作用と主効果
    4.6 仮定をテストする:回帰診断
        4.6.1 外れ値
        4.6.2 影響値
        4.6.3 不等分散性、非正規性、相関誤差
        4.6.4 偏残差プロットと非線形性
    4.7 多項式回帰およびスプライン回帰
        4.7.1 多項式
        4.7.2 スプライン
        4.7.3 一般化加法モデル
        4.7.4 さらに学ぶために
    4.8 まとめ

5章 分類
    5.1 ナイーブベイズ
        5.1.1 正確なベイズ分類はなぜ実用的でないか
        5.1.2 ナイーブベイズ解
        5.1.3 数値予測変数
        5.1.4 さらに学ぶために
    5.2 判別分析
        5.2.1 共分散行列
        5.2.2 フィッシャーの線形判別
        5.2.3 簡単な例
        5.2.4 さらに学ぶために
    5.3 ロジスティック回帰
        5.3.1 ロジスティック応答関数とロジット
        5.3.2 ロジスティック回帰と一般化線形モデル
        5.3.3 一般化線形モデル
        5.3.4 ロジスティック回帰の予測値
        5.3.5 係数とオッズ比を解釈する
        5.3.6 線形回帰とロジスティック回帰:類似点と相違点
        5.3.7 モデルを評価する
        5.3.8 さらに学ぶために
    5.4 分類モデルの評価
        5.4.1 混同行列
        5.4.2 稀なクラスの問題
        5.4.3 適合率、再現率、特異度
        5.4.4 ROC曲線
        5.4.5 AUC
        5.4.6 リフト
        5.4.7 さらに学ぶために
    5.5 不均衡データの戦略
        5.5.1 アンダーサンプリング
        5.5.2 オーバーサンプリングと重み追加 /削減
        5.5.3 データ生成
        5.5.4 コストベース分類
        5.5.5 予測を探索する
        5.5.6 さらに学ぶために
    5.6 まとめ

6章 統計的機械学習
    6.1 k近傍法
        6.1.1 簡単な例:ローンの返済不能を予測する
        6.1.2 距離指標
        6.1.3 one-hotエンコーダ
        6.1.4 標準化(正規化、z値)
        6.1.5 kの選択
        6.1.6 特徴量エンジンとしての k近傍法
    6.2 木モデル
        6.2.1 簡単な例
        6.2.2 再帰分割アルゴリズム
        6.2.3 同質性または不純度の測定
        6.2.4 木の成長を止める
        6.2.5 連続値を予測する
        6.2.6 木の使い方
        6.2.7 さらに学ぶために
    6.3 バギングとランダムフォレスト
        6.3.1 バギング
        6.3.2 ランダムフォレスト
        6.3.3 変数の重要度
        6.3.4 ハイパーパラメータ
    6.4 ブースティング
        6.4.1 ブースティングアルゴリズム
        6.4.2 XGBoost
        6.4.3 正則化:過剰適合を防ぐ
        6.4.4 ハイパーパラメータと交差検証
    6.5 まとめ

7章 教師なし学習
    7.1 主成分分析
        7.1.1 簡単な例
        7.1.2 主成分の計算
        7.1.3 主成分の解釈
        7.1.4 さらに学ぶために
    7.2 k平均クラスタリング
        7.2.1 簡単な例
        7.2.2 k平均アルゴリズム
        7.2.3 クラスタを解釈する
        7.2.4 クラスタの個数を選ぶ
    7.3 階層クラスタリング
        7.3.1 簡単な例
        7.3.2 デンドログラム
        7.3.3 凝集アルゴリズム
        7.3.4 非類似度の尺度
    7.4 モデルベースクラスタリング
        7.4.1 多変量正規分布
        7.4.2 正規分布の混合
        7.4.3 クラスタの個数を選ぶ
        7.4.4 さらに学ぶために
    7.5 スケーリングとカテゴリ変数
        7.5.1 変数のスケーリング
        7.5.2 優勢な変数
        7.5.3 カテゴリデータと Gower距離
        7.5.4 混合データクラスタリングの問題
    7.6 まとめ

付録A 参考文献
索引

正誤表