本書は広い視野からデータサイエンス全体を俯瞰し、問題を解決する上で重要なことは何か、その設計原則に焦点を当てた入門書です。データを収集、分析、解釈するためのシステムを構築するために必要な、確率・統計の基礎から線形代数、スコアとランキング、統計分析、データマンジング、可視化、数学的モデル、回帰、機械学習まで広範囲にわたってカバーするだけでなく、思考プロセスも重視します。著者は、ニューヨーク州立大学ストーニーブルック校で長年にわたりコンピュータサイエンス教育に携わってきた計算機科学者で、統計学と計算機科学の枠を越えた新しい学問としてデータサイエンスを捉え直し、著者独自のアプローチでデータサイエンスの本質に迫ります。
データサイエンス設計マニュアル
Steven S. Skiena 著、小野 陽子 監訳、長尾 高弘 訳
- TOPICS
- Data Science , Database
- 発行年月日
- 2020年01月
- PRINT LENGTH
- 428
- ISBN
- 978-4-87311-891-8
- 原書
- The Data Science Design Manual
- FORMAT
- Print PDF
目次
1章データサイエンスとは 1.1 計算機科学、データサイエンス、リアルサイエンス 1.2 データについての興味深い問い 1.3 データの性質 1.4 分類と回帰 1.5 データサイエンスの動画:QuantShop 1.6 「私の体験談から」について 1.7 私の体験談から:答えるためには正しい問いが必要だ 1.8 さらなる探求のために 1.9 演習問題 2章 数学の基礎知識の準備 2.1 確率 2.2 記述統計量 2.3 相関分析 2.4 対数 2.5 私の体験談から:デザイナー遺伝子の適合 2.6 さらなる探求のために 2.7 演習問題 3章 データマンジング 3.1 データサイエンスで使われるプログラミング言語 3.2 データの収集 3.3 データのクリーニング 3.4 私の体験談から:市場を読み切れ 3.5 クラウドソーシング 3.6 さらなる探求のために 3.7 演習問題 4章 スコアとランキング 4.1 BMI(ボディマス指数) 4.2 スコアリング関数の開発 4.3 Zスコアと正規化 4.4 ランキングの高度な技法 4.5 私の体験談から:Clydeの逆襲 4.6 アローの不可能性定理 4.7 私の体験談から:誰が偉大か 4.8 さらなる探求のために 4.9 演習問題 5章 統計分析 5.1 統計的分布 5.2 分布からのサンプリング 5.3 統計的有意性 5.4 私の体験談から:若さの泉の発見? 5.5 パーミュテーションテストと p値 5.6 ベイズ推定 5.7 さらなる探求のために 5.8 演習問題 6章 データの可視化 6.1 探索的データ分析 6.2 可視化の審美眼の育成 6.3 グラフの種類 6.4 偉大なるビジュアライゼーション 6.5 グラフの解釈 6.6 インタラクティブな可視化 6.7 私の体験談から:世界を描く TextMap 6.8 さらなる探求のために 6.9 演習問題 7章 数理モデル 7.1 モデリングの哲学 7.2 モデルの用語 7.3 ベースラインモデル 7.4 モデルの評価 7.5 評価システム 7.6 私の体験談から:100 %の正確度 7.7 シミュレーションモデル 7.8 私の体験談から:賭け方の計算 7.9 さらなる探求のために 7.10 演習問題 8章 線形代数 8.1 線形代数の威力 8.2 行列演算の可視化 8.3 行列の分解 8.4 固有値と固有ベクトル 8.5 固有値分解 8.6 私の体験談から:ヒューマンファクター 8.7 さらなる探求のために 8.8 演習問題 9章 線形回帰とロジスティック回帰 9.1 線形回帰 9.2 より良い回帰モデル 9.3 私の体験談から:タクシー 配達 (デリバー) 9.4 パラメータフィッティング問題としての回帰 9.5 正則化によるモデルの単純化 9.6 分類とロジスティック回帰 9.7 ロジスティック分類の問題 9.8 さらなる探求のために 9.9 演習問題 10章 ネットワーク分析と距離 10.1 距離の測定 10.2 最近傍分類 10.3 グラフ、ネットワーク、距離 10.4 PageRank 10.5 クラスタリング 10.6 私の体験談から:クラスタ爆弾 10.7 さらなる探求のために 10.8 演習問題 11章 機械学習 11.1 ナイーブベイズ(単純ベイズ) 11.2 決定木分類器 11.3 ブースティングとアンサンブル学習 11.4 サポートベクターマシン 11.5 学習の度合い 11.6 ディープラーニング 11.7 私の体験談から:名前のゲーム 11.8 さらなる探求のために 11.9 演習問題 12章 ビッグデータ:スケールを追求 12.1 ビッグデータとは 12.2 私の体験談から:インフラの重要性 12.3 ビッグデータを扱うアルゴリズム 12.4 フィルタリングとサンプリング 12.5 並列化 12.6 MapReduce 12.7 社会的倫理的な問題 12.8 さらなる探求のために 12.9 演習問題 13章 最後に一言 13.1 仕事を手に入れよう! 13.2 大学院に進学する 13.3 コンサルティングサービス 参考文献 索引