入門 ソーシャルデータ

データマイニング、分析、可視化のテクニック

内容

本書は改訂されています。[リンク]
Facebook、Twitter、LinkedInなどのソーシャルネットワーキングサイトは、日々膨大な量の“ソーシャルデータ”を生み出しています。本書は、膨大なソーシャルデータから価値ある情報を見出すために必要な一連の技術について解説。ソーシャルネットワークが生み出すデータを抽出、分析、可視化するまでのテクニックを学ぶことができます。技術的なアプローチの背景となる概念や理論、有用なツールの活用方法なども解説し、ソーシャルデータとはどのようなものか、またどのようにアプローチすればよいのか、そのために必要な知識や技術は何かなど、ソーシャルデータを扱おうとする開発者に必要な基礎をわかりやすく提供します。

関連書籍

目次

目次
序章
この本を読むべきか
あるいは読まざるべきか
必要条件とツール
凡例
コードサンプルの使い方
問い合わせ先
謝辞


1章 イントロダクション : Twitterデータのハック
    1.1 Pythonのインストール
    1.2 Twitterデータの収集と操作
    1.3 まとめ

2章 マイクロフォーマット: セマンティックマークアップと常識のずれ
    2.1 XFNとその仲間たち
    2.2 XFNによるソーシャルなつながりの解析
    2.3 Geocoordinates: ほぼすべての情報をつなぐ共通の糸
    2.4 レシピのみじん切り
    2.5 レストランの評価の収集
    2.6 まとめ

3章 古き良きメールボックス
    3.1 mbox: Unixメールボックスについての大雑把な説明
    3.2 mbox + CouchDB = 気楽な電子メール分析
    3.3 対話の順序の復元
    3.4 SIMILE Timelineによるメール「イベント」の可視化
    3.5 自分のメールデータの分析
    3.6 まとめ

4章 Twitter: フォローしている、フォローされている、集合演算
    4.1 RESTfulとOAuthを着込んだ API
    4.2 無駄がなく必要最小限なデータ収集マシン
    4.3 友人関係グラフの作成
    4.4 まとめ

5章 Twitter: ツイート、すべてツイート、ツイートそのもの
    5.1 ペンは剣よりも強し。では Twitterとマシンガンでは?
    5.2 ツイートの分析(1度に 1エンティティ)
    5.3 隠されたソーシャルネットワークの類似性(#JustinBieberと #TeaParty)
    5.4 ツイートの可視化
    5.5 まとめ

6章 LinkedIn: プロフェッショナルネットワークのクラスタリング
    6.1 なぜクラスタリングか
    6.2 職名による知人情報のクラスタリング
    6.3 拡張プロフィール情報の取得
    6.4 ネットワークの地理的なクラスタリング
    6.5 まとめ

7章 Google Buzz: TF-IDF、コサイン類似度、コロケーション
    7.1 Buzz = Twitter + ブログ(???)
    7.2 NLTKによるデータハック
    7.3 テキストマイニングの基礎
    7.4 類似文書の検索
    7.5 バイグラムの分析
    7.6 Gmailの操作
    7.7 OAuthによる Gmailへのアクセス
    7.8 サーチエンジンを作ろうとする前に
    7.9 まとめ

8章 ブログその他: 自然言語処理(さらにその先へ)
    8.1 NLPについてのパレートの法則風入門
    8.2 NLTKを使った典型的な NLPパイプライン
    8.3 NLTKでブログ内の文を検出する
    8.4 文書の要約作成
    8.5 エンティティ中心の分析 : データのより深い理解
    8.6 まとめ

9章 Facebook: オールインワンのソーシャルウェブ環境
    9.1 ソーシャルネットワークデータへのアクセス
    9.2 Facebookデータの可視化
    9.3 まとめ

10章  セマンティックウェブ: 自由討論
    10.1 発展的な革命?
    10.2 人は事実だけでは生きていけない
    10.3 希望

索引

正誤表