機械学習のための特徴量エンジニアリング

その原理とPythonによる実践

3,300円
Ebook Storeで電子版を購入:
価格3,300円
カートに入れる

内容

本書は、機械学習モデルの性能を向上させるために、データから良い特徴量を作る特徴量エンジニアリングについて解説します。
前半では初学者に向けて、数値、テキスト、カテゴリ変数の基本的な取り扱い方を説明し、後半では特徴量ハッシング、ビンカウンティング、PCAによるデータの圧縮、さらに非線形特徴量とモデルスタッキング、画像特徴量抽出と深層学習による自動特徴学習などの高度なテーマを扱います。
特徴量エンジニアリングの原理について直感的な理解が得られるように図や例を豊富に使い、またPythonコードによる実行例を数多くあげて解説しており、実際の業務に適用するための具体的な知識が得られます。
特徴量エンジニアリングを使いこなし、機械学習モデルの性能を最大限に引き出したいエンジニア必携の一冊です。Kaggle GrandmasterのKohei Ozaki(@smly)氏による「日本語版に寄せて」を収録しています。

関連書籍

目次

日本語版に寄せて
訳者まえがき
はじめに

1章 機械学習パイプライン
    1.1 データ
    1.2 タスク
    1.3 モデル
    1.4 特徴量
    1.5 モデル評価

2章 数値データの取り扱い
    2.1 スカラ/ベクトル/ベクトル空間
    2.2 カウントデータの取り扱い
        2.2.1 二値化
        2.2.2 離散化
    2.3 対数変換
        2.3.1 対数変換の実行
        2.3.2 べき変換:対数変換の一般化
    2.4 スケーリングと正規化
        2.4.1 Min-Maxスケーリング
        2.4.2 標準化(分散スケーリング)
        2.4.3 ℓ2正規化
    2.5 交互作用特徴量
    2.6 特徴選択
    2.7 まとめ
    2.8 参考文献

3章 テキストデータの取り扱い
    3.1 Bag-of-X:テキストを数値ベクトルで表現する
        3.1.1 Bag-of-Words
        3.1.2 Bag-of-n-Grams
    3.2 特徴選択のための単語除去
        3.2.1 ストップワードによる単語除去
        3.2.2 頻度に基づく単語除去
        3.2.3 ステミング(語幹処理)
    3.3 言葉の最小単位:単語からnグラム、そしてフレーズへ
        3.3.1 パース処理とトークン化
        3.3.2 フレーズ検出のためのコロケーション抽出
    3.4 まとめ
    3.5 参考文献

4章 特徴量スケーリングによる効果:Bag-of-WordsのTF-IDFによる重み付け
    4.1 TF-IDF:Bag-of-Wordsに対するシンプルな変換方法
    4.2 TF-IDFを試す
        4.2.1 クラス分類用のデータセット作成
        4.2.2 TF-IDF変換を用いたBag-of-Wordsのスケーリング
        4.2.3 ロジスティック回帰によるクラス分類
        4.2.4 正則化によるロジスティック回帰のチューニング
    4.3 深堀り:何が起こっているのか?
    4.4 まとめ
    4.5 参考文献

5章 カテゴリ変数の取り扱い
    5.1 カテゴリ変数のエンコーディング
        5.1.1 One-Hotエンコーディング
        5.1.2 ダミーコーディング
        5.1.3 Effectコーディング
        5.1.4 カテゴリ変数のエンコーディング方法の長所と短所
    5.2 膨大なカテゴリ数を持つカテゴリ変数の取り扱い
        5.2.1 特徴量ハッシング
        5.2.2 ビンカウンティング
    5.3 まとめ
    5.4 参考文献

6章 次元削減:膨大なデータをPCAで圧縮
    6.1 直感的な解釈
    6.2 導出
        6.2.1 線形射影
        6.2.2 分散と経験分散
        6.2.3 PCA:はじめの一歩の定式化
        6.2.4 PCA:行列とベクトルによる定式化
        6.2.5 主成分分析の一般的な解法
        6.2.6 特徴量の変換
        6.2.7 PCAの実装
    6.3 PCAの実行
    6.4 白色化とZCA
    6.5 PCAの考察と限界
    6.6 ユースケース
    6.7 まとめ
    6.8 参考文献

7章 非線形特徴量の生成:k-meansを使ったスタッキング
    7.1 k-means
    7.2 パッチで覆うためのクラスタリング
    7.3 k-meansによるクラス分類用の特徴量生成
        7.3.1 密なクラスタ特徴量
    7.4 メリット/デメリット/注意事項
    7.5 まとめ
    7.6 参考文献

8章 特徴量作成の自動化:画像特徴量の抽出と深層学習
    8.1 最も単純な画像特徴量――そしてこの特徴量が機能しない理由
    8.2 手動の特徴抽出法:SIFTおよびHOG
        8.2.1 画像勾配
        8.2.2 勾配方向ヒストグラム
        8.2.3 SIFT
    8.3 深層学習を用いた画像特徴量の学習
        8.3.1 全結合層
        8.3.2 畳み込み層
        8.3.3 Rectified Linear Unit(ReLU)変換
        8.3.4 応答正規化層
        8.3.5 プーリング層
        8.3.6 AlexNetの構造
    8.4 まとめ
    8.5 参考文献

9章 バック・トゥ・ザ・「フィーチャー」:学術論文レコメンドアルゴリズムの構築
    9.1 アイテムベースの協調フィルタリング
    9.2 解析第1回:データインポート/クリーニング/特徴量の解析
        9.2.1 学術論文レコメンドエンジン:テイク1――単純なアプローチ
    9.3 解析第2回:より技術的に洗練されたスマートなモデル
        9.3.1 学術論文レコメンドエンジン:テイク2
    9.4 解析第3回:より多くの特徴量がさらなる情報をもたらす
        9.4.1 学術論文レコメンドエンジン:テイク3
    9.5 まとめ
    9.6 参考文献

付録A 線形モデリングと線形代数の基礎
    A.1 線形分類の概要
    A.2 行列の解剖学
        A.2.1 ベクトルから部分空間へ
        A.2.2 特異値分解(SVD)
        A.2.3 データ行列の4つの基本的な部分空間
        A.2.4 線形システムの解法
    A.3 参考文献

索引

正誤表

関連ファイル