入門ソーシャルデータ

―データマイニング、分析、可視化のテクニック

Matthew A. Russell　著、奥野陽、佐藤敏紀、瀬戸口光宏、原川浩一、水野貴明　監訳、長尾高弘　訳

TOPICS: Web , Database
発行年月日: 2011年11月
PRINT LENGTH: 368
ISBN: 978-4-87311-513-9
原書: Mining the Social Web
FORMAT

本書は改訂されています。[リンク]
Facebook、Twitter、LinkedInなどのソーシャルネットワーキングサイトは、日々膨大な量の“ソーシャルデータ”を生み出しています。本書は、膨大なソーシャルデータから価値ある情報を見出すために必要な一連の技術について解説。ソーシャルネットワークが生み出すデータを抽出、分析、可視化するまでのテクニックを学ぶことができます。技術的なアプローチの背景となる概念や理論、有用なツールの活用方法なども解説し、ソーシャルデータとはどのようなものか、またどのようにアプローチすればよいのか、そのために必要な知識や技術は何かなど、ソーシャルデータを扱おうとする開発者に必要な基礎をわかりやすく提供します。

正誤表

書籍発行後に気づいた誤植や更新された情報を掲載しています。お手持ちの書籍では、すでに修正が施されている場合がありますので、書籍最終ページの奥付でお手持ちの書籍の刷数をご確認の上、ご利用ください。

第1刷に対する正誤表

■P6 例1-3　APIの仕様変更による修正

誤：

>>> import twitter
>>> twitter_api = twitter.Twitter(domain="api.twitter.com", api_version='1')
>>> trends = twitter_api.trends()
>>> [ trend['name'] for trend in trends['trends'] ]

正：

>>> import twitter
>>> twitter_api = twitter.Twitter()
>>> WORLD_WOE_ID = 1
>>> trends = twitter_api.trends._(WORLD_WOE_ID)
>>> [ trend['name'] for trend in trends()[0]['trends'] ]

■P14　コード上から3行目

誤：

... g.add_edge(rt_source, tweet["from_user"], {"tweet_id" : tweet["id"])}

正：

... g.add_edge(rt_source, tweet["from_user"], {"tweet_id" : tweet["id"]})

■P14　コード上から14行目

誤：

>>> sorted(nx.degree(g))

正：

>>> sorted(nx.degree(g).values())

■P248　下から7、8行目

誤：

...仮説の検証に...
...仮説を検証するために...

正：

...仮説の検定に...
...仮説を検定するために...

■P288　下から2行目

誤：

真陰性（FN:False negative）

正：

真陰性（TN:True negative）

■P289　上から1行目

誤：: 偽陰性（TN:True negative）
正：: 偽陰性（FN:False negative）

目次
序章
この本を読むべきか
あるいは読まざるべきか
必要条件とツール
凡例
コードサンプルの使い方
問い合わせ先
謝辞


1章 イントロダクション : Twitterデータのハック
    1.1 Pythonのインストール
    1.2 Twitterデータの収集と操作
    1.3 まとめ

2章 マイクロフォーマット: セマンティックマークアップと常識のずれ
    2.1 XFNとその仲間たち
    2.2 XFNによるソーシャルなつながりの解析
    2.3 Geocoordinates: ほぼすべての情報をつなぐ共通の糸
    2.4 レシピのみじん切り
    2.5 レストランの評価の収集
    2.6 まとめ

3章 古き良きメールボックス
    3.1 mbox: Unixメールボックスについての大雑把な説明
    3.2 mbox + CouchDB = 気楽な電子メール分析
    3.3 対話の順序の復元
    3.4 SIMILE Timelineによるメール「イベント」の可視化
    3.5 自分のメールデータの分析
    3.6 まとめ

4章 Twitter: フォローしている、フォローされている、集合演算
    4.1 RESTfulとOAuthを着込んだ API
    4.2 無駄がなく必要最小限なデータ収集マシン
    4.3 友人関係グラフの作成
    4.4 まとめ

5章 Twitter: ツイート、すべてツイート、ツイートそのもの
    5.1 ペンは剣よりも強し。では Twitterとマシンガンでは？
    5.2 ツイートの分析（1度に 1エンティティ）
    5.3 隠されたソーシャルネットワークの類似性（#JustinBieberと #TeaParty）
    5.4 ツイートの可視化
    5.5 まとめ

6章 LinkedIn: プロフェッショナルネットワークのクラスタリング
    6.1 なぜクラスタリングか
    6.2 職名による知人情報のクラスタリング
    6.3 拡張プロフィール情報の取得
    6.4 ネットワークの地理的なクラスタリング
    6.5 まとめ

7章 Google Buzz: TF-IDF、コサイン類似度、コロケーション
    7.1 Buzz = Twitter + ブログ（？？？）
    7.2 NLTKによるデータハック
    7.3 テキストマイニングの基礎
    7.4 類似文書の検索
    7.5 バイグラムの分析
    7.6 Gmailの操作
    7.7 OAuthによる Gmailへのアクセス
    7.8 サーチエンジンを作ろうとする前に
    7.9 まとめ

8章 ブログその他: 自然言語処理（さらにその先へ）
    8.1 NLPについてのパレートの法則風入門
    8.2 NLTKを使った典型的な NLPパイプライン
    8.3 NLTKでブログ内の文を検出する
    8.4 文書の要約作成
    8.5 エンティティ中心の分析 : データのより深い理解
    8.6 まとめ

9章 Facebook: オールインワンのソーシャルウェブ環境
    9.1 ソーシャルネットワークデータへのアクセス
    9.2 Facebookデータの可視化
    9.3 まとめ

10章  セマンティックウェブ: 自由討論
    10.1 発展的な革命？
    10.2 人は事実だけでは生きていけない
    10.3 希望

索引

入門 ソーシャルデータ

正誤表

第1刷に対する正誤表

■P6 例1-3 APIの仕様変更による修正

■P14 コード上から3行目

■P14 コード上から14行目

■P248 下から7、8行目

■P288 下から2行目

■P289 上から1行目

目次