データサイエンスのための数学入門

―Pythonで学ぶ線形代数、確率、統計の基礎

[cover photo]
TOPICS
Math
発行年月日
PRINT LENGTH
424
ISBN
978-4-8144-0126-0
原書
Essential Math for Data Science
FORMAT
Print
Print
3,960円

本書は、データサイエンスに欠かせない微積分・確率・線形代数・統計を、線形回帰・ロジスティック回帰・ニューラルネットワークといった実践的なアルゴリズムと結びつけて学べるハンズオンガイドです。数式による説明を最小限に抑え、SymPy、NumPy、scikit-learnなどのコード例を通じて直感的に理解し、実際に活用する力を養います。後半では、市場で評価されるスキルセットやデータサイエンス分野でのキャリア構築に役立つ実践的アドバイスも提供しています。読み終える頃には、強固な数理基盤と実践力を備え、自信を持って現場で活躍できる力が身についているはずです。

関連ファイル

目次

賞賛の声
訳者まえがき
まえがき

1章 基礎数学と微積分のおさらい
    1.1 数論
    1.2 演算の順序
    1.3 変数
    1.4 関数
    1.5 総和
    1.6 指数
    1.7 対数
    1.8 オイラー数と自然対数
        1.8.1 オイラー数
        1.8.2 自然対数
    1.9 極限
    1.10 微分
        1.10.1 偏微分
        1.10.2 連鎖律
    1.11 積分
    1.12 まとめ
    1.13 演習

2章 確率
    2.1 確率の理解
        2.1.1 確率と統計の違い
    2.2 確率の数学
        2.2.1 結合確率
        2.2.2 和事象の確率
        2.2.3 条件付き確率とベイズの定理
        2.2.4 結合確率と条件付き確率の組み合わせ
    2.3 二項分布
    2.4 ベータ分布
    2.5 まとめ
    2.6 演習

3章 記述統計と推測統計
    3.1 データとは何か
    3.2 記述統計と推測統計の違い
    3.3 母集団・標本・偏り
    3.4 記述統計
        3.4.1 算術平均と加重平均
        3.4.2 中央値
        3.4.3 最頻値
        3.4.4 分散と標準偏差
        3.4.5 正規分布
        3.4.6 逆累積分布関数(ICDF)
        3.4.7 Zスコア
    3.5 推測統計
        3.5.1 中心極限定理
        3.5.2 信頼区間
        3.5.3 p値を理解する
        3.5.4 仮説検定
    3.6 t分布:数が少ない標本を扱う
    3.7 ビッグデータにおける考慮点と“テキサスの狙撃兵の誤謬”
    3.8 まとめ
    3.9 演習

4章 線形代数
    4.1 ベクトルとは何か
        4.1.1 ベクトルの加算と統合
        4.1.2 ベクトルのスケーリング
        4.1.3 スパンと線形従属
    4.2 線形変換
        4.2.1 基底ベクトル
        4.2.2 行列とベクトルの積
    4.3 行列の積
    4.4 行列式
    4.5 特別な形式の行列
        4.5.1 正方行列
        4.5.2 単位行列
        4.5.3 逆行列
        4.5.4 対角行列
        4.5.5 三角行列
        4.5.6 スパース行列
    4.6 連立方程式と逆行列
    4.7 固有ベクトルと固有値
    4.8 まとめ
    4.9 演習

5章 線形回帰
    5.1 基本的な線形回帰
    5.2 残差と二乗誤差
    5.3 最適な直線を見つける
        5.3.1 閉形式の方程式
        5.3.2 逆行列を使った手法
        5.3.3 勾配降下法
    5.4 過学習と分散
    5.5 確率的勾配降下法
    5.6 相関係数
    5.7 統計的有意性
    5.8 決定係数
    5.9 推定標準偏差
    5.10 予測区間
    5.11 訓練用データとテスト用データの分割
    5.12 多重線形回帰
    5.13 まとめ
    5.14 演習

6章 ロジスティック回帰と分類
    6.1 ロジスティック回帰を理解する
    6.2 ロジスティック回帰を実行する
        6.2.1 ロジスティック関数
        6.2.2 ロジスティック曲線の当てはめ
    6.3 多変数ロジスティック回帰
    6.4 対数オッズ
    6.5 決定係数
    6.6 p値
    6.7 訓練用とテスト用のデータセット分割
    6.8 混同行列
    6.9 ベイズの定理と分類
    6.10 ROC曲線とAUC
    6.11 クラスの不均衡
    6.12 まとめ
    6.13 演習

7章 ニューラルネットワーク
    7.1 ニューラルネットワークや深層学習を使うべきタイミング
    7.2 シンプルなニューラルネットワーク
        7.2.1 活性化関数
        7.2.2 順伝播
    7.3 逆伝播
        7.3.1 重みと偏りの微分を求める
        7.3.2 確率的勾配降下法
    7.4 scikit-learnを使う
    7.5 ニューラルネットワークと深層学習の限界
    7.6 まとめ
    7.7 演習

8章 キャリアのアドバイスと今後の道筋
    8.1 データサイエンスの再定義
    8.2 データサイエンス略史
    8.3 強みを見いだす
        8.3.1 SQLを使いこなす
        8.3.2 プログラミングを使いこなす
        8.3.3 データの可視化
        8.3.4 業界を知る
        8.3.5 生産的な学び
        8.3.6 実務担当者とアドバイザー
    8.4 データサイエンスの仕事探しの注意点
        8.4.1 職務の定義
        8.4.2 組織の目標と関係者の賛同
        8.4.3 適切なリソースの確保
        8.4.4 現実的な目標
        8.4.5 既存のシステムとの競合
        8.4.6 職務が想定と違った場合
    8.5 理想の仕事は存在しないのか
    8.6 これからどこへ向かうべきか
    8.7 まとめ

付録A 補足
    A.1 SymPyを使ったLaTeX形式の表示
    A.2 ゼロから作る二項分布
    A.3 ゼロから作るベータ分布
    A.4 ベイズの定理の導出
    A.5 ゼロから作るCDFと逆CDF
    A.6 eを使った時間経過に伴う事象の確率予測
    A.7 ヒルクライミング法と線形回帰
    A.8 ヒルクライミング法とロジスティック回帰
    A.9 線形計画法の概要
    A.10 scikit-learnを使ったMNISTクラス分類

付録B 演習の解答
    B.1 1章 基礎数学と微積分のおさらい
    B.2 2章 確率
    B.3 3章 記述統計と推測統計
    B.4 4章 線形代数
    B.5 5章 線形回帰
    B.6 6章 ロジスティック回帰と分類
    B.7 7章 ニューラルネットワーク

付録C 統計的有意性の落とし穴
    C.1 相関に潜む統計の罠
    C.2 偏相関係数
    C.3 因果探索
    C.4 まとめ

索引

コラム目次
    SymPyによる総和
    SymPyによる式の簡略化
    なぜオイラー数が広く使われているのか
    SymPyの力
    極限を使って導関数を求める
    極限を使った積分の計算
    オッズは便利
    「コーヒーを飲む人」の定義とは
    グラウンドトゥルース
    「偏りの種類」弾丸ツアー
    中央値は分位数の一種
    標本のサイズから1を引く理由
    変動係数
    どれくらいの量の標本があれば十分か
    pハッキングに注意
    平均以外のものについて
    ベクトルが役に立つ理由
    データを操作することはベクトルを操作すること
    3次元以上の基底ベクトル
    線形変換と実務との関わり
    え? 回帰って機械学習なの?
    なぜ絶対値を使わないのか
    機械学習で訓練することは回帰で当てはめることだ
    相関係数の計算方法
    statsmodelライブラリ
    相関と因果は別
    パラメーターの信頼区間
    決定係数をテストに使う
    訓練用とテスト用にデータを分割する場合の比率
    予測を実行する
    人に対する分類には要注意
    ニューラルネットワークのバリエーション
    自動微分
    AIの冬の到来は
    SQL:データ分析の共通言語
    データサイエンスのゴーファー
    Jupyter Notebookについて
    Javaのデータサイエンスライブラリ
    ソフトウェアライセンスの政治的な問題
    成功の定義は収益性だけではない
    「あなたの業務内容は?」と聞かれたら
    シャドーIT(影のIT)