Rによるテキストマイニング
――tidytextを活用したデータ分析と可視化の基礎

[cover photo]
  • 2018年05月 発行
  • 228ページ
  • ISBN978-4-87311-830-7
  • フォーマット Print PDF
  • 原書: Text Mining with R

オライリー・ジャパンで書籍を購入:
定価3,240円

Ebook Storeで電子版を購入:
価格2,592円

「Rの神様」ハドリー・ウィッカムに「Rのデータ分析を変えた」と言わしめた革新的なパッケージ、tidytextの開発者たちによる、データ分析と可視化の基礎を学ぶことができるテキストマイニングの入門書です。取得した生データを、「整理データ原則」に基づいてtidytextで扱いやすい形に変換すると、簡単に既存のツールと組み合わせることができ、効果的にデータ分析や可視化を行うことができます。本書はその原則に基づき、tidytext、dplyr、ggraph、widyrパッケージ等を使って、ジェーン・オースティンの小説や古典、Twitter、ニュースサイト、NASAのメタデータなどを分析していきます。著者たちの豊富な経験と科学的理論に基づいた、明確でシンプルかつ応用力抜群のテキストマイニング手法を提示します。

関連書籍

RStudioではじめるRプログラミング入門
Rクイックリファレンス 第2版
Rクックブック
Rグラフィックスクックブック
Rではじめるデータサイエンス
Rパッケージ開発入門
アート・オブ・Rプログラミング

目次
はじめに

1章 整理テキスト形式
    1.1 整理テキストとほかのデータ構造の比較
    1.2 unnest_tokens関数
    1.3 ジェーン・オースティンの作品の整理
    1.4 gutenbergrパッケージ
    1.5 単語の出現頻度
    1.6 まとめ

2章 整理データを使ったセンチメント分析
    2.1 センチメントデータセット
    2.2 内部結合を使ったセンチメント分析
    2.3 3つのセンチメント辞書の比較
    2.4 ポジティブ、ネガティブな感情を示す単語の最も一般的な例
    2.5 ワードクラウド
    2.6 単語を越えた単位
    2.7 まとめ

3章 単語の出現頻度と特定の文書での出現頻度の分析:tf-idf
    3.1 ジェーン・オースティンの小説における単語出現頻度
    3.2 ジップの法則
    3.3 bind_tf_idf関数
    3.4 物理学書のコーパス
    3.5 まとめ

4章 単語間の関係: nグラムと相関
    4.1 nグラムによるトークン化
        4.1.1 nグラムの出現頻度計算とフィルタリング
        4.1.2 バイグラムの分析
        4.1.3 センチメント分析にコンテキストを反映させるためのバイグラムの活用
        4.1.4 ggraphを使ったバイグラムのネットワークの可視化
        4.1.5 ほかのテキストのバイグラムの可視化
    4.2 widyrパッケージによる 2つの単語の出現頻度と相関
        4.2.1 節単位の出現頻度と相関
        4.2.2 ペアごとの相関
    4.3 まとめ

5章 未整理形式へ(から)の変換
    5.1 DTMの整理
        5.1.1 DocumentTermMatrixオブジェクトの整理
        5.1.2 dfmオブジェクトの整理
    5.2 整理データの行列へのキャスト
    5.3 メタデータを持つコーパスオブジェクトの整理
        5.3.1 例:株式に関する記事のマイニング
    5.4 まとめ

6章 トピックモデリング
    6.1LDA 
        6.1.1 単語 - トピック確率
        6.1.2 文書 - トピック確率
    6.2 例:図書館荒らし
        6.2.1 章を対象とする LDA
        6.2.2 文書ごとの分類
        6.2.3 単語ごとの分類: augment
    6.3 LDAのほかの実装
    6.4 まとめ

7章 ケーススタディ: Twitterアーカイブの比較
    7.1 データの取得とツイートの時間的分布
    7.2 単語の出現頻度
    7.3 使用している単語の比較
    7.4 使用している単語の変化
    7.5 いいねとリツイート
    7.6 まとめ

8章 ケーススタディ:  ASAメタデータのマイニング
    8.1 NASAのデータの整理方法
        8.1.1 データラングリングと整理
        8.1.2 初歩的な探索
    8.2 単語の共起と相関
        8.2.1 タイトルと説明文のワードネットワーク
        8.2.2 キーワードのネットワーク
    8.3 説明フィールドの tf-idfの計算
        8.3.1 説明フィールドの単語の tf-idfとは何か
        8.3.2 説明フィールドとキーワードのつながり
    8.4 トピックモデリング
        8.4.1 DTMへのキャスト
        8.4.2 トピックモデリングの実行
        8.4.3 トピックモデルの解釈
        8.4.4 トピックモデリングとキーワードの結合
    8.5 まとめ

9章 ケーススタディ: Usenetテキストの分析
    9.1 前処理
        9.1.1 テキストの前処理
    9.2 ニュースグループに含まれる単語
        9.2.1 ニュースグループ内の tf-idf
        9.2.2 トピックモデリング
    9.3 センチメント分析
        9.3.1 単語ごとのセンチメント分析
        9.3.2 メッセージごとのセンチメント分析
        9.3.3 nグラム解析
    9.4 まとめ

参考文献
索引

Feedback

皆さんのご意見をお聞かせください。ご購入いただいた書籍やオライリー・ジャパンへのご感想やご意見、ご提案などをお聞かせください。より良い書籍づくりやサービス改良のための参考にさせていただきます。
[feedbackページへ]