直感 生成AI
ハンズオンで動かして学ぶ拡散モデル入門
- Omar Sanseviero、Pedro Cuenca、Apolinário Passos、Jonathan Whitaker 著、江川 崇 訳
- 2025年12月 発行
- 416ページ
- ISBN978-4-8144-0140-6
- フォーマット Print PDF ePub
- 原書: Hands-On Generative AI with Transformers and Diffusion Models
4,840円
書籍のご注文はオーム社サイトへ
内容
最先端の生成AIを、手を動かしながら体得できる入門書。テキスト・画像・音声・動画といった幅広い生成AIの基本から、ファインチューニングやモデル評価などの応用までを、わかりやすく体系的に解説します。複雑な理論や高度な数学には深入りせず、事前訓練済みモデルとオープンソースライブラリを活用し、実際にコードを動かしながら学習可能。豊富なサンプルコードと解説を通じて、生成AIの仕組みを直感的に理解できます。専門知識がなくてもハンズオンで直感的に学べて、急速に進化するAI時代を生き抜く実践力も身につけられる一冊です。
関連書籍
目次
賞賛の声
訳者まえがき
まえがき
第I部 オープンモデルの実践的活用
1章 生成メディア入門
1.1 画像の生成
1.2 テキストの生成
1.3 サウンドクリップの生成
1.4 倫理的および社会的影響
1.5 これまでの歩みと現状
1.6 生成AI モデルはどのように作られるのか
1.7 まとめ
2章 Transformer
2.1 言語モデルを動かす
2.1.1 テキストのトークン化
2.1.2 確率の予測
2.1.3 テキストの生成
2.1.4 ゼロショット汎化
2.1.5 少数ショット汎化
2.2 Transformer ブロック
2.3 Transformer モデルの系譜
2.3.1 Seq2Seq タスク
2.3.2 エンコーダーのみのモデル
2.4 事前訓練済みモデルの威力
2.5 Transformer の総括
2.5.1 制約事項
2.5.2 テキスト以外のもの
2.6 プロジェクト課題:言語モデルを用いたテキスト生成
2.7 まとめ
2.8 演習
2.9 課題
2.10 参考文献
3章 情報の圧縮と表現
3.1 オートエンコーダー
3.1.1 データの準備
3.1.2 エンコーダーのモデリング
3.1.3 デコーダー
3.1.4 訓練
3.1.5 潜在空間の探索
3.1.6 潜在空間の可視化
3.2 変分オートエンコーダー(VAE)
3.2.1 VAE エンコーダーとデコーダー
3.2.2 エンコーダーの分布からのサンプリング
3.2.3 VAE の訓練
3.2.4 生成モデルとしてのVAE
3.3 CLIP
3.3.1 コントラスト損失
3.3.2 CLIP の利用:ステップ・バイ・ステップ
3.3.3 CLIP によるゼロショット画像分類
3.3.4 ゼロショット画像分類パイプライン
3.3.5 CLIP の活用例
3.4 CLIP の代替モデル
3.5 プロジェクト課題:セマンティック画像検索
3.6 まとめ
3.7 参考文献
4章 拡散モデル
4.1 重要な着想:反復的精緻化
4.2 拡散モデルの訓練
4.2.1 データ
4.2.2 ノイズの付加
4.2.3 UNet
4.2.4 訓練
4.2.5 サンプリング
4.2.6 評価
4.3 詳解:ノイズスケジュール
4.3.1 ノイズを加える理由
4.3.2 シンプルな実装から
4.3.3 数学的な背景
4.3.4 入力解像度とスケーリングの影響
4.4 詳解:UNet とその派生モデル
4.4.1 シンプルなUNet
4.4.2 UNet の改良
4.4.3 代替アーキテクチャー
4.5 詳解:拡散モデルの目的
4.6 プロジェクト課題:拡散モデルの訓練
4.7 まとめ
4.8 演習
4.9 課題
4.10 参考文献
5章 Stable Diffusion と条件付き生成
5.1 制御の追加:条件付き拡散モデル
5.1.1 データの準備
5.1.2 クラス条件付きモデルの作成
5.1.3 モデルの訓練
5.1.4 サンプリング
5.2 潜在拡散による効率化の向上
5.3 Stable Diffusion の構成要素
5.3.1 テキストエンコーダー
5.3.2 変分オートエンコーダー(VAE)
5.3.3 UNet
5.3.4 Stable Diffusion XL
5.3.5 FLUX、SD3、動画
5.3.6 分類フリーガイダンス(CFG)
5.4 すべてをまとめる:コメント付きサンプリングループ
5.5 オープンデータとオープンモデル
5.5.1 LAION-5B の課題と終焉
5.5.2 代替データセット
5.5.3 公正利用と商用利用
5.6 プロジェクト課題:Gradio でのインタラクティブなML デモの構築
5.7 まとめ
5.8 演習
5.9 課題
5.10 参考文献
第II部 生成モデルの転移学習
6章 言語モデルのファインチューニング
6.1 テキストの分類
6.1.1 データセットの特定
6.1.2 使用するモデルタイプの定義
6.1.3 適切なベースモデルの選択
6.1.4 データセットの前処理
6.1.5 評価指標の定義
6.1.6 モデルの訓練
6.1.7 今でも役に立つのか
6.2 テキスト生成
6.2.1 適切な生成モデルの選択
6.2.2 生成モデルの訓練
6.3 インストラクション
6.4 アダプターの概要
6.5 量子化の簡単な紹介
6.6 すべてをまとめる
6.7 評価の深堀り
6.8 プロジェクト課題:検索拡張生成(Retrieval-Augmented Generation:RAG)
6.9 まとめ
6.10 演習
6.11 課題
6.12 参考文献
7章 Stable Diffusion のファインチューニング
7.1 Stable Diffusion のフルファインチューニング
7.1.1 データセットの準備
7.1.2 モデルのファインチューニング
7.1.3 推論
7.2 DreamBooth
7.2.1 データセットの準備
7.2.2 事前保存
7.2.3 モデルのDreamBooth 化
7.2.4 推論
7.3 LoRA の訓練
7.4 Stable Diffusion に新たな能力の付与
7.4.1 インペインティング
7.4.2 特殊な条件付けの追加入力
7.5 プロジェクト課題:SDXL 向けDreamBooth LoRA を自分で訓練する
7.6 まとめ
7.7 演習
7.8 参考文献
第III部 さらなる理解のために
8章 テキストから画像生成モデルの創造的応用
8.1 画像から画像
8.2 インペインティング
8.3 プロンプト重み付けと画像編集
8.3.1 プロンプト重み付けとマージ
8.3.2 Semantic Guidance による拡散画像の編集
8.4 インバージョンによる実画像編集
8.4.1 LEDITS++ による編集
8.4.2 インストラクションファインチューニングによる実画像編集
8.5 ControlNet
8.6 画像プロンプティングと画像バリエーション
8.6.1 画像バリエーション
8.6.2 画像プロンプティング
8.7 プロジェクト課題:創造力を発揮するキャンバス
8.8 まとめ
8.9 演習
8.10 参考文献
9章 音声の生成
9.1 音声データ
9.1.1 波形
9.1.2 スペクトログラム
9.2 Transformer ベースのアーキテクチャーによる音声テキスト変換
9.2.1 エンコーダーベースの手法
9.2.2 エンコーダー・デコーダー型の手法
9.2.3 モデルからパイプラインへ
9.2.4 評価
9.3 テキスト音声合成から生成音声モデルへ
9.3.1 Seq2Seq モデルによる音声生成
9.3.2 Bark によるスピーチ音声以外の生成
9.3.3 AudioLM とMusicLM
9.3.4 AudioGen とMusicGen
9.3.5 Audio Diffusion とRiffusion
9.3.6 Dance Diffusion
9.3.7 拡散モデルを使った音声生成についての詳解
9.4 音声生成システムの評価
9.5 今後の展望
9.6 プロジェクト課題:エンド・ツー・エンドの対話システム
9.7 まとめ
9.8 演習
9.9 課題
9.10 参考文献
10章 生成AI で急速に進歩する領域
10.1 プリファレンス最適化
10.2 長いコンテキスト
10.3 Mixture of Experts(MoE)
10.4 最適化と量子化
10.5 データ
10.6 汎用モデルの追求
10.7 コンピュータービジョン
10.8 3D コンピュータービジョン
10.9 動画生成
10.10 マルチモーダル
10.11 コミュニティ
付録A オープンソースツール
A.1 Hugging Face スタック
A.2 データ
A.3 ラッパー
A.4 ローカル推論
A.5 デプロイツール
付録B 大規模言語モデルのメモリ要件
B.1 推論時のメモリ要件
B.2 訓練時のメモリ要件
B.3 追加の参考資料
付録C RAG(検索拡張生成)
C.1 データ処理
C.2 ドキュメントの埋め込み
C.3 検索
C.4 応答生成
C.5 実運用レベルのRAG
索引
コラム目次
なぜ内積を使うのか
なぜ「ゼロショット分類」と呼ばれるのか
ラベルあり、ラベルなし
訳者補記:Hugging Face へのログイン方法
訳者補記:Common Voice データセット非公開