データサイエンスのための統計学入門

―予測、分類、統計モデリング、統計的機械学習とRプログラミング

Peter Bruce、Andrew Bruce　著、黒川利明　訳、大橋真也　技術監修

TOPICS: Data Science , Database
発行年月日: 2018年02月24日
PRINT LENGTH: 348
ISBN: 978-4-87311-828-4
原書: Practical Statistics for Data Scientist
FORMAT

データサイエンスに必要な統計学と機械学習の重要な50の基本概念と、関連する用語について、簡潔な説明と、それを裏付ける最低限の数式、クリアな可視化、実現するRコードを提示して、多方面からの理解を促します。データの分類、分析、モデル化、予測という一連のデータサイエンスのプロセスにおいて統計学のどの項目が必要か、どの項目が不必要かを示し、重要な項目について、その概念、数学的裏付け、プログラミングの各側面からアプローチします。データサイエンスに必要な項目を効率よく学べて、深く理解することが可能です。

正誤表

書籍発行後に気づいた誤植や更新された情報を掲載しています。お手持ちの書籍では、すでに修正が施されている場合がありますので、書籍最終ページの奥付でお手持ちの書籍の刷数をご確認の上、ご利用ください。

1刷正誤表

※2018年4月更新。2刷で修正済みです。

■viiページ　上から1行目
【誤】おいては、
【正】おいて、

■viiページ　上から5行目
【誤】洞察などが
【正】推測などが

■viiページ　下から10行目
【誤】サプライサイドでも次の統計革命の真っ只中に
【正】サプライサイドにおいても次の統計革命の渦中に

■ixページ　上から2行目
【誤】50以上の各概念
【正】50以上の概念

■ixページ　上から8行目
【誤】同時に、統計およびRでの
【正】同時に、統計学およびRにおける

■ixページ　上から9行目
【誤】統計の初歩
【正】統計学の初歩

■ixページ　上から11行目
【誤】ビッグデータ時代に標本の
【正】ビッグデータ時代になりサンプルの

■xページ　上から2行目
【誤】統計でも
【正】統計学においても

■xページ　下から12行目
【誤】といった
【正】などの

■xページ　下から11行目
【誤】統計の復習を兼ねて
【正】統計学の復習を兼ねて

■xページ　下から10行目
【誤】参照が付いている
【正】参照が付けてある

■xページ　下から6行目
【誤】とりあえず
【正】手早く

■xiページ　上から12行目
【誤】本書は、基本的には、統計の
【正】本書は基本的には、統計学の

■xiページ　下から8,11,13行目
【誤】統計
【正】統計学

■xiiページ　上から4行目
【誤】統計の
【正】統計学の

■xiiiページ　上から3行目
【誤】統計の世界から
【正】統計学の世界から

■xiiiページ　上から5行目
【誤】わきまえている
【正】理解している

■xviページ　下から14行目
【誤】統計専門家
【正】統計学者

■xviページ　下から6行目
【誤】statistics.comインストラクター
【正】statistics.comインストラクタ

■1ページ　上から1行目
【誤】統計の
【正】統計学の

■1ページ　上から3行目
【誤】統計は応用科学として、
【正】統計学は応用科学として、

■1ページ　上から5行目
【誤】1800年代
【正】19世紀

■1ページ　上から7行目
【誤】統計概念
【正】統計的な概念

■1ページ　上から11行目
【誤】統計では
【正】統計学では

■1ページ　下から9行目
【誤】大量データ
【正】大きな母集団

■1ページ　下から4行目
【誤】構築し
【正】構築した

■1ページ　下から3行目
【誤】その主張は
【正】彼の主張には

■2ページ　上から1行目
【誤】高機能の
【正】高機能な

■3ページ　上から3行目
【誤】どんな値でも
【正】任意の値を

■3ページ　上から15行目
【誤】順序が明示されている
【正】明示的な順序のある

■4ページ　上から4,9行目
【誤】順序データ
【正】順序尺度データ

■6ページ　上から8行目
【誤】表に抽出
【正】表として抽出

■6ページ　下から1行目
【誤】Rでは、data.frameオブジェクトが基本的な矩形データ構造となる。
【正】Rにおいて、基本的な矩形データ構造は、data.frameオブジェクトである。

■7ページ　上から8行目
【誤】異なる言葉
【正】異なる用語

■7ページ　下から13行目
【誤】要素だ。
【正】要素である。

■8ページ　上から1行目
【誤】統計におけるグラフ
【正】統計学におけるグラフ

■9ページ　上から8行目
【誤】データの半分がその上と下に位置する値
【正】その値の上と下にデータの半分が位置するような値

■9ページ　上から11行目
【誤】整列データで
【正】整列されたデータにおいて

■10ページ　数式「平均値」
【誤】i
【正】i=1

■11ページ　数式「加重平均」
【誤】i
【正】i=1

■11ページ　下から7行目
【誤】これでは、
【正】そのため、

■11ページ　下から5-6行目
【誤】より良い要約値となる
【正】よりよい指標となる

■11ページ　上から2行目
【誤】中央の観測値は変わらない。
【正】中央の観測値は両方の地区も同じである。

■13ページ　下から8行目
【誤】基本Rには、
【正】Rの基本関数の中には、

■14ページ　上から1行目
【誤】ほぼ同じとなる。
【正】ほぼ同じ値となる。

■14ページ　下から8行目
【誤】意思決定することが統計での作業となる。
【正】意思決定する。

■16ページ　上から3行目
【誤】偏差の平均は
【正】しかし偏差の平均は

■16ページ　上から12,13行目
【誤】不偏分散
【正】分散

■16ページ　数式「分散」
【誤】Σ
【正】平均絶対偏差のΣと同じように上添字「n」と下添字「i=1」を付ける

■17ページ　下から2-3行目
【誤】尺度
【正】指標

■18ページ　上から1,10行目
【誤】尺度
【正】指標

■19ページ　下から9行目
【誤】標準偏差は、
【正】標準偏差が、

■19ページ　下から7行目
【誤】調整済み）だ。
【正】調整済み）となっている。

■26ページ　上から4行目
【誤】WIckham
【正】Wickham

■28ページ　下から6-7行目
【誤】数値軸であり一変量も値が
【正】数値軸上に一変量の値が

■29ページ　上から2行目
【誤】区間分けされた
【正】区間に分けられた

■29ページ　下から1行目
【誤】=22.5
【正】=22.50

■30ページ　上から7行目
【誤】割合
【正】比率

■30ページ　下から2行目
【誤】小さな値のような逆に
【正】小さな値のように逆の

■31ページ　上から7行目
【誤】別の
【正】もう1つの

■32ページ　下から9行目
【誤】KLX
【正】XLK

■32ページ　下から4行目
【誤】外れ値に
【正】外れ値の

■32ページ　下から3-4行目
【誤】ソフトウェアパッケージは、
【正】ソフトウェアのパッケージでは、

■32ページ　下から2行目
【誤】Rパッケージ
【正】Rのパッケージ

■34ページ　上から6行目
【誤】v1の値が大く
【正】v1の値が大きく

■35ページ　上から2行目
【誤】相関について優れた記述がある。
【正】相関についての優れた記述がある。

■35ページ　上から4行目
【誤】平均や分散のような
【正】平均や分散などの

■35ページ　上から8行目
【誤】2つ以上の変数の探索
【正】2つ以上の変量の探索

■36ページ　上から4行目
【誤】非常に狭いか広すぎる
【正】非常に狭いまたは広すぎる

■39ページ　図1-10内
【誤】遅延中の％
【正】遅延の％

■40ページ　図1-11内
【誤】遅延中の％
【正】遅延の％

■41ページ　上から4行目
【誤】ファセットという概念
【正】ファセットという方法

■42ページ　基本事項［8］項目2番目
【誤】分割表は、
【正】分割表では、

■46ページ　上から3行目
【誤】ある組織を同様のものと
【正】ある組織をそれと似たものと

■46ページ　下から4行目
【誤】観察できる
【正】観測できる

■48ページ　下から11行目
【誤】データプロットも手作業での調査も
【正】データのグラフを描くことも手作業での検査も

■50ページ　訳注
【誤】プロ野球選手、ヨギ・ベラの
【正】プロ野球選手ヨギ・ベラの

■51ページ　上から7-8行目
【誤】その人物に挑戦して
【正】その人物の能力を試して

■53ページ　図2-5内
【誤】子供の偏差は両親の平均値の2/3
【正】子供の偏差は両親の平均値の偏差の2/3

■55ページ　上から2行目
【誤】個別の値の
【正】個々の値の

■55ページ　上から7行目
【誤】近づくこと。
【正】近づく傾向のこと。

■55ページ　上から9行目
【誤】個別データ値の
【正】個々のデータ値の

■55ページ　注意アイコン1行目
【誤】個別データポイントの
【正】個々のデータポイントの

■57ページ　2.3.1項2行目
【誤】標本のサイズが十分大きく
【正】サンプルのサイズが十分大きく

■57ページ　2.3.1項7行目
【誤】データサイエンティストも
【正】データサイエンティストにとっても

■57ページ　2.3.1項最終行
【誤】それほど中心ではない。
【正】それほど重要なことではない。

■59ページ　上から7行目
【誤】追加標本を
【正】追加の標本を

■59ページ　下から3行目
【誤】すべての知識を体現した母集団
【正】すべての知識を具現化した母集団

■60ページ　上から1行目
【誤】観察値を
【正】観測値を

■61ページ　上から11行目
【誤】多変量データにも使える
【正】多変量データとしても使える

■62ページ　上から8行目
【誤】統計を利用している
【正】統計学を利用している

■70ページ　基本事項［14］項目2番目
【誤】通常は正規分布しないが、
【正】通常は正規分布に従わないが、

■74ページ　上から10行目
【誤】コンピュータがなかったものだから、
【正】コンピュータがなかったから、

■74ページ　下から8行目
【誤】古典的な統計推定で
【正】古典的な統計学的推定で

■79ページ　下から5行目
【誤】比率や
【正】比率（rate）や

■80ページ　下から12行目
【誤】故障の危険が
【正】故障の危険性が

■83ページ　下から5行目
【誤】既存の常用薬より優れている）
【正】既存の常用薬より優れている」

■89ページ　上から1行目
【誤】訪問者数が1000人になるまで待ち、
【正】訪問者数が1,000人になるまで待ち、

■89ページ　基本用語［20］2行目
【誤】起こったとするという仮説
【正】起こったとする仮説

■89ページ　基本用語［20］6行目
【誤】結果が片側の方向だけに
【正】結果が片側だけに

■91ページ　下から1行目
【誤】面倒なテーマであり、
【正】面倒なテーマであるが、

■95ページ　下から4行目
【誤】関数が要る。
【正】関数が必要だ。

■96ページ　下から2行目
【誤】偶然による分散の
【正】偶然による変動の

■97ページ　下から10行目
【誤】そう重大だとは
【正】それほど重大だとは

■99ページ　上から4行目
【誤】効果が（本物なのに）偶然によるものと
【正】効果が（本物なのに）偶然によると

■100ページ　下から6行目
【誤】統計的有意かどうかを
【正】統計的に有意かどうかを

■101ページ　上から1行目
【誤】偶然に同じ結果になるよりも多いと
【正】30%を超える確率で同じ結果が得られると

■101ページ　下から3行目
【誤】掲載決定により
【正】掲載決定が

■101ページ　下から2-3行目
【誤】掲載してしまったことから、
【正】掲載してしてしまっているという結果に対して

■101ページ　下から2行目
【誤】「禁止」にまで至った。
【正】「禁止」するまでに至った。

■101ページ　下から1行目
【誤】漠然としか
【正】漠然としてしか

■102ページ　上から1行目
【誤】見つけたから、
【正】見つけたことから、

■102ページ　上から9行目
【誤】わずかだが、本当に違う。
【正】わずかだが、現実に異なる。

■105ページ　上から2行目
【誤】検定統計量の標準形を
【正】検定統計量の標準化形を

■107ページ　上から11行目
【誤】教師付き学習の場合、
【正】教師あり学習の場合、

■108ページ　上から1行目　読み仮名
【誤】「浚渫」という
【正】「浚渫（しゅんせつ）」という

■108ページ　アイコン「偽陽性率」上から2行目
【誤】間違って有意な効果を
【正】誤って有意な効果を

■108ページ　アイコン「偽陽性率」下から2行目
【誤】ラベル付けの間違い、
【正】ラベル付けの誤り、

■113ページ　下から5行目
【誤】5つの値それぞれに
【正】それぞれの5つの値に

■114ページ　「3.8.1」項上から3行目
【誤】比率に基づく。
【正】比率に基づいている。

■117ページ　下から9行目
【誤】帰無仮説のもとでとなる。
【正】帰無仮説のもとで考える。

■120ページ　下から12行目
【誤】国会議員
【正】下院議員

■120ページ　下から6行目
【誤】期待される、内部の数字に
【正】期待される内部の数字に

■121ページ　上から1行目
【誤】捜査員は期待値からの差
【正】捜査員は期待値乖離

■121ページ　上から2行目
【誤】を計算し、
【正】からの乖離を計算し、

■122ページ　下から1行目
【誤】（独立性仮定を体現した）
【正】（独立性仮定を具現化した）

■124ページ　上から4行目
【誤】伝統的な統計標準を
【正】伝統的な統計的標準を

■124ページ　上から14行目
【誤】伝統的な統計の
【正】伝統的な統計学の

■124ページ　上から15行目
【誤】キャンブル用の
【正】ギャンブル用の

■124ページ　上から20-21行目
【誤】アームを押して
【正】アームを引いて

■125ページ　上から5行目
【誤】少ないけれども押し続ける。
【正】少ないけれども引き続ける。

■125ページ　上から7行目
【誤】AからCへ押す回数を
【正】AからCへ引く回数を

■125ページ　上から14行目
【誤】（アームを押す）
【正】（アームを引く）

■127ページ　下から12行目
【誤】差異が実際に
【正】差が実際に

■128ページ　上から14行目
【誤】2. 第1標本に
【正】2. 第1の標本に

■129ページ　上から14行目
【誤】9,868の0
【正】9,835の0

■133ページ　上から1行目
【誤】統計作業で、
【正】統計学で

■142ページ　下から2行目
【誤】約213ドル
【正】約229ドル

■142ページ　下から2行目
【誤】1000平方フィート
【正】1,000平方フィート

■142ページ　下から1行目
【誤】212,700ドル
【正】228,800ドル

■143ページ　上から5行目
【誤】適合率の尺度であり、
【正】適合率の指標であり、

■149ページ　基本事項［31］5項目目
【誤】方程式の適合である
【正】方程式への適合である

■151ページ　下から10行目
【誤】6500平方フィート、
【正】6,500平方フィート、

■153ページ　上から15行目
【誤】関連語：和対照
【正】関連語：和コントラスト

■154ページ　上から17行目
【誤】木モデルのような、機械学習アルゴリズムに
【正】木モデルのような機械学習アルゴリズムに

■157ページ　下から6行目
【誤】ファクタに変換すれば
【正】ファクタに変換した際に

■162ページ　上から4行目
【誤】予測変数と応答との関係が他の予測変数とは
【正】応答との関係がある予測変数と他の予測変数とが

■165ページ　上から8行目
【誤】「四分位範囲の1.5 倍より大きい」
【正】「四分位範囲の1.5 倍より離れている」

■167ページ　上から1行目
【誤】クック距離が別の指標で、
【正】もう一つの指標がクック距離で、

■167ページ　上から1-2行目
【誤】観察の影響が
【正】観測値の影響が

■167ページ　上から3行目
【誤】バブルプロットが
【正】バブルプロットでは

■169ページ　下から13行目
【誤】予測値の範囲で定数の残差分散がないことだ。
【正】予測値の範囲で残差分散が定数でないことだ。

■174ページ　上から3行目
【誤】そう重大ではない。
【正】それほど重大ではない。

■182ページ　上から　行目
【誤】目標は、j＝0, 1, 2について、Y＝jを予測すること
【正】目標は、Y＝jをj＝0, 1, 2について予測すること

■182ページ　下から1行目
【誤】観察する確率を
【正】観測する確率を

■183ページ　上から8行目
【誤】「非素朴」
【正】「非ナイーブ」

■184ページ　上から5-6行目
【誤】この予測を行う計算のような、成果に対して予測値確率の初期計算を行い、最終成果確率計算を行うベイズ規則に
【正】成果に対して予測値確率の初期計算を行い、最終成果の確率計算を行う、予測を行う計算において使うベイズ規則に

■184ページ　上から9-10行目
【誤】確率計算を分類するレコードにマッチングするレコードに確率計算を限らず、データセット全体を使い確率計算する。
【正】分類するレコードにマッチングするレコードに確率の計算に限らず、データセット全体を使い確率の計算をする。

■185ページ　上から1行目
【誤】成果を観察
【正】成果を観測

■185ページ　上から2行目
【誤】個別条件付き確率
【正】個々の条件付き確率

■185ページ　上から5行目
【誤】全変数
【正】すべての変数

■188ページ　上から4行目,下から9,2行目,
【誤】尺度
【正】指標

■189ページ　上から7行目
【誤】個別変数の
【正】個々の変数の

■190ページ　上から2行目
【誤】中平方和を
【正】「内」平方和を

■194ページ　上から5行目
【誤】分母の指数式を
【正】分母の指数部分の式を

■196ページ　上から14行目
【誤】ローンが完済（完済）なら0、返済不能（返済不能）なら
【正】ローンが完済（paid off）なら0、返済不能（default）なら

■198ページ　上から6行目
【誤】オッズを使う。
【正】オッズを使うのである。

■199ページ　上から12行目
【誤】次の2点では
【正】次の2点で

■200ページ　上から7行目
【誤】尺度
【正】指標

■205ページ　上から4行目
【誤】感度対特異度の
【正】敏感度対特異度の

■205ページ　上から7行目
【誤】尺度。
【正】指標。

■205ページ　上から10,11行目
【誤】返済不能
【正】デフォルト

■207ページ　図5-5「実際の応答 y=0」右
【誤】偽陰性
【正】偽陽性

■208ページ　上から6行目再現率の定義
【誤】Σ偽陽性
【正】Σ偽陰性

■211ページ　下から5行目
【誤】特異度や感度と
【正】特異度や敏感度と

■211ページ　下から4-3行目
【誤】陽性だが
【正】陽性なもののうち

■214ページ　上から3行目
【誤】尺度で
【正】指標で

■217ページ　上から8行目
【誤】ブーストや
【正】ブースティングや

■219ページ　下から12行目
【誤】Tom Fawcet
【正】Tom Fawcett

■219ページ　下から9行目
【誤】Analytics Vidya Content Team
【正】Analytics Vidhya Content Team

■222ページ　下から4行目
【誤】K個のレコードを
【正】k個のレコードを

■224ページ　上から4行目
【誤】Kを20に
【正】kを20に

■225ページ　下から3行目
【誤】K×n個の
【正】k×n個の

■229ページ　下から4,3行目
【誤】SNR
【正】SN比

■233ページ　下から5行目
【誤】使うと、
【正】使い、

■233ページ　下から4-3行目
【誤】適合させる。
【正】適合させる例を取り上げる。

■237ページ　下から8行目
【誤】不純度尺度は
【正】不純度指標は

■237ページ　下から5,3行目
【誤】エントロピー尺度
【正】エントロピー指標

■238ページ　上から5行目
【誤】不純度尺度は、
【正】不純度指標は、

■239ページ　上から13行目
【誤】返済不能値は
【正】デフォルト値は

■241ページ　下から7行目
【誤】Analytics Vidya Content Team
【正】Analytics Vidhya Content Team

■242ページ　下から4行目
【誤】重要度の尺度。
【正】重要度の指標。

■242ページ　訳注上から3行目
【誤】1198ポンド
【正】1,198ポンド

■242ページ　訳注上から4行目
【誤】1197ポンド
【正】1,197ポンド

■243ページ　下から7行目
【誤】制御変数mをm＝1とする。
【正】制御変数をm＝1とする。

■249ページ　上から2行目
【誤】2つの尺度
【正】2つの指標

■249ページ　上から4行目
【誤】信頼できる尺度なのに、
【正】信頼できる指標なのに、

■249ページ　上から4行目
【誤】ジニ不純度減少尺度を
【正】ジニ不純度減少指標を

■251ページ　上から6行目
【誤】モデル平均
【正】モデル平均化

■260ページ　上から2行目
【誤】（返済不能は6）
【正】（デフォルトは6）

■274ページ　下から1行目
【誤】ユーザが指定したKと
【正】ユーザが指定したkと

■282ページ　上から13-14行目
【誤】(B＝b1,b2,...,bq)
【正】B＝(b1,b2,...,bq)

■286ページ　上から3行目
【誤】K多変量分布の
【正】K変量分布の

■286ページ　上から5行目
【誤】N1(μ1),Σ1), N1(μ2),Σ2) , ... , N1(μK),ΣK)
【正】N1(μ1,Σ1), N1(μ2,Σ2) , ... , N1(μK,ΣK)

■296ページ　図7-13　キャプション
【誤】ローンデ返済不能データの
【正】ローン返済不能データの

■297ページ　上から13行目
【誤】ローンデフォルトデータに
【正】ローン返済不能データに

日本語版まえがき
訳者まえがき

まえがき

1章　探索的データ分析
    1.1　構造化データの諸要素
        1.1.1　さらに学ぶために
    1.2　矩形データ
        1.2.1　データフレームとインデックス付け
        1.2.2　非矩形データ
        1.2.3　さらに学ぶために
    1.3　位置の推定
        1.3.1　平均値
        1.3.2　中央値と頑健推定
        1.3.3　例：人口と殺人事件発生率の代表値の推定
        1.3.4　さらに学ぶために
    1.4　散らばりの推定
        1.4.1　標準偏差と関連推定値
        1.4.2　パーセンタイルに基づく推定値
        1.4.3　例：州別人口の散らばりの推定
        1.4.4　さらに学ぶために
    1.5　データ分布の探索
        1.5.1　パーセンタイルと箱ひげ図
        1.5.2　度数分布表とヒストグラム
        1.5.3　密度推定
        1.5.4　さらに学ぶために
    1.6　バイナリデータとカテゴリデータの探索
        1.6.1　最頻値（モード）
        1.6.2　期待値
        1.6.3　さらに学ぶために
    1.7　相関
        1.7.1　散布図
        1.7.2　さらに学ぶために
    1.8　2つ以上の変量の探索
        1.8.1　六角ビニングと等高線（2つの数値データをプロット）
        1.8.2　2つのカテゴリ変数の探索
        1.8.3　カテゴリデータと数量データ
        1.8.4　多変量の可視化
        1.8.5　さらに学ぶために
    1.9　まとめ

2章　データと標本の分布
    2.1　無作為抽出と標本バイアス
        2.1.1　バイアス
        2.1.2　無作為抽出
        2.1.3　サイズと品質：サイズが問題になる場合
        2.1.4　標本平均と母集団平均
        2.1.5　さらに学ぶために
    2.2　選択バイアス
        2.2.1　平均への回帰
        2.2.2　さらに学ぶために
    2.3　統計量の標本分布
        2.3.1　中心極限定理
        2.3.2　標準誤差
        2.3.3　さらに学ぶために
    2.4　ブートストラップ
        2.4.1　リサンプリングとブートストラップ
        2.4.2　さらに学ぶために
    2.5　信頼区間
        2.5.1　さらに学ぶために
    2.6　正規分布
        2.6.1　標準正規分布とQQプロット
    2.7　ロングテールの分布
        2.7.1　さらに学ぶために
    2.8　スチューデントの t分布
        2.8.1　さらに学ぶために
    2.9　二項分布
        2.9.1　さらに学ぶために
    2.10　ポアソン分布と関連する分布
        2.10.1　ポアソン分布
        2.10.2　指数分布
        2.10.3　故障率の推定
        2.10.4　ワイブル分布
        2.10.5　さらに学ぶために
    2.11　まとめ

3章　統計実験と有意性検定
    3.1　A/Bテスト
        3.1.1　なぜ統制群があるか
        3.1.2　なぜ A/Bだけで C、D、…でないのか
        3.1.3　さらに学ぶために
    3.2　仮説検定
        3.2.1　帰無仮説
        3.2.2　対立仮説
        3.2.3　片側、両側仮説検定
        3.2.4　さらに学ぶために
    3.3　リサンプリング
        3.3.1　並べ替え検定
        3.3.2　例： Web粘着性
        3.3.3　完全並べ替え検定とブートストラップ並べ替え検定
        3.3.4　並べ替え検定：データサイエンスの基本
        3.3.5　さらに学ぶために
    3.4　統計的有意性と p値
        3.4.1　p値
        3.4.2　アルファ
        3.4.3　第一種の過誤と第二種の過誤
        3.4.4　データサイエンスと p値
        3.4.5　さらに学ぶために
    3.5　t検定
        3.5.1　さらに学ぶために
    3.6　多重検定
        3.6.1　さらに学ぶために
    3.7　自由度
        3.7.1　さらに学ぶために
    3.8　ANOVA
        3.8.1　F統計量
        3.8.2　二元配置分散分析（二元 ANOVA）
        3.8.3　さらに学ぶために
    3.9　カイ二乗検定
        3.9.1　カイ二乗検定：リサンプリング方式
        3.9.2　カイ二乗検定：統計理論
        3.9.3　フィッシャーの正確確率検定
        3.9.4　データサイエンスへの関わり
        3.9.5　さらに学ぶために
    3.10　多腕バンディットアルゴリズム
        3.10.1　さらに学ぶために
    3.11　検定力とサンプルサイズ
        3.11.1　サンプルサイズ
        3.11.2　さらに学ぶために
    3.12　まとめ

4章　回帰と予測
    4.1　単回帰
        4.1.1　回帰式
        4.1.2　予測値と残差
        4.1.3　最小二乗法
        4.1.4　予測と説明（プロファイリング）
        4.1.5　さらに学ぶために
    4.2　重回帰
        4.2.1　例：キング郡住宅データ
        4.2.2　モデルの評価
        4.2.3　交差検証
        4.2.4　モデル選択と段階的回帰
        4.2.5　加重回帰
        4.2.6　さらに学ぶために
    4.3　回帰を使った予測
        4.3.1　外挿の危険性
        4.3.2　信頼区間と予測区間
    4.4　回帰でのファクタ変数
        4.4.1　ダミー変数表現
        4.4.2　多水準のファクタ変数
        4.4.3　順序ファクタ変数
    4.5　回帰式の解釈
        4.5.1　相関予測変数
        4.5.2　多重共線性
        4.5.3　交絡変数
        4.5.4　交互作用と主効果
    4.6　仮定をテストする：回帰診断
        4.6.1　外れ値
        4.6.2　影響値
        4.6.3　不等分散性、非正規性、相関誤差
        4.6.4　偏残差プロットと非線形性
    4.7　多項式回帰およびスプライン回帰
        4.7.1　多項式
        4.7.2　スプライン
        4.7.3　一般化加法モデル
        4.7.4　さらに学ぶために
    4.8　まとめ

5章　分類
    5.1　ナイーブベイズ
        5.1.1　正確なベイズ分類はなぜ実用的でないか
        5.1.2　ナイーブベイズ解
        5.1.3　数値予測変数
        5.1.4　さらに学ぶために
    5.2　判別分析
        5.2.1　共分散行列
        5.2.2　フィッシャーの線形判別
        5.2.3　簡単な例
        5.2.4　さらに学ぶために
    5.3　ロジスティック回帰
        5.3.1　ロジスティック応答関数とロジット
        5.3.2　ロジスティック回帰と一般化線形モデル
        5.3.3　一般化線形モデル
        5.3.4　ロジスティック回帰の予測値
        5.3.5　係数とオッズ比を解釈する
        5.3.6　線形回帰とロジスティック回帰：類似点と相違点
        5.3.7　モデルを評価する
        5.3.8　さらに学ぶために
    5.4　分類モデルの評価
        5.4.1　混同行列
        5.4.2　稀なクラスの問題
        5.4.3　適合率、再現率、特異度
        5.4.4　ROC曲線
        5.4.5　AUC
        5.4.6　リフト
        5.4.7　さらに学ぶために
    5.5　不均衡データの戦略
        5.5.1　アンダーサンプリング
        5.5.2　オーバーサンプリングと重み追加 /削減
        5.5.3　データ生成
        5.5.4　コストベース分類
        5.5.5　予測を探索する
        5.5.6　さらに学ぶために
    5.6　まとめ

6章　統計的機械学習
    6.1　k近傍法
        6.1.1　簡単な例：ローンの返済不能を予測する
        6.1.2　距離指標
        6.1.3　one-hotエンコーダ
        6.1.4　標準化（正規化、z値）
        6.1.5　kの選択
        6.1.6　特徴量エンジンとしての k近傍法
    6.2　木モデル
        6.2.1　簡単な例
        6.2.2　再帰分割アルゴリズム
        6.2.3　同質性または不純度の測定
        6.2.4　木の成長を止める
        6.2.5　連続値を予測する
        6.2.6　木の使い方
        6.2.7　さらに学ぶために
    6.3　バギングとランダムフォレスト
        6.3.1　バギング
        6.3.2　ランダムフォレスト
        6.3.3　変数の重要度
        6.3.4　ハイパーパラメータ
    6.4　ブースティング
        6.4.1　ブースティングアルゴリズム
        6.4.2　XGBoost
        6.4.3　正則化：過剰適合を防ぐ
        6.4.4　ハイパーパラメータと交差検証
    6.5　まとめ

7章　教師なし学習
    7.1　主成分分析
        7.1.1　簡単な例
        7.1.2　主成分の計算
        7.1.3　主成分の解釈
        7.1.4　さらに学ぶために
    7.2　k平均クラスタリング
        7.2.1　簡単な例
        7.2.2　k平均アルゴリズム
        7.2.3　クラスタを解釈する
        7.2.4　クラスタの個数を選ぶ
    7.3　階層クラスタリング
        7.3.1　簡単な例
        7.3.2　デンドログラム
        7.3.3　凝集アルゴリズム
        7.3.4　非類似度の尺度
    7.4　モデルベースクラスタリング
        7.4.1　多変量正規分布
        7.4.2　正規分布の混合
        7.4.3　クラスタの個数を選ぶ
        7.4.4　さらに学ぶために
    7.5　スケーリングとカテゴリ変数
        7.5.1　変数のスケーリング
        7.5.2　優勢な変数
        7.5.3　カテゴリデータと Gower距離
        7.5.4　混合データクラスタリングの問題
    7.6　まとめ

付録A　参考文献
索引

データサイエンスのための統計学入門

正誤表

1刷正誤表

目次

関連書籍