入門 ソーシャルデータ

―データマイニング、分析、可視化のテクニック

[cover photo]
TOPICS
Web , Database
発行年月日
PRINT LENGTH
368
ISBN
978-4-87311-513-9
原書
Mining the Social Web
FORMAT
PDF
Print
3,740円
この商品は品切れ再入荷未定です

本書は改訂されています。[リンク]
Facebook、Twitter、LinkedInなどのソーシャルネットワーキングサイトは、日々膨大な量の“ソーシャルデータ”を生み出しています。本書は、膨大なソーシャルデータから価値ある情報を見出すために必要な一連の技術について解説。ソーシャルネットワークが生み出すデータを抽出、分析、可視化するまでのテクニックを学ぶことができます。技術的なアプローチの背景となる概念や理論、有用なツールの活用方法なども解説し、ソーシャルデータとはどのようなものか、またどのようにアプローチすればよいのか、そのために必要な知識や技術は何かなど、ソーシャルデータを扱おうとする開発者に必要な基礎をわかりやすく提供します。

正誤表

ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書籍を印刷した月です。お手持ちの書籍では、すでに修正が施されている場合がありますので、書籍最終ページの奥付でお手持ちの書籍の刷版、刷り年月日をご確認の上、ご利用ください。

第1刷に対する正誤表

■P6 例1-3 APIの仕様変更による修正

誤:
>>> import twitter
>>> twitter_api = twitter.Twitter(domain="api.twitter.com", api_version='1')
>>> trends = twitter_api.trends()
>>> [ trend['name'] for trend in trends['trends'] ]
正:
>>> import twitter
>>> twitter_api = twitter.Twitter()
>>> WORLD_WOE_ID = 1
>>> trends = twitter_api.trends._(WORLD_WOE_ID)
>>> [ trend['name'] for trend in trends()[0]['trends'] ]

■P14 コード上から3行目

誤:
... g.add_edge(rt_source, tweet["from_user"], {"tweet_id" : tweet["id"])}
正:
... g.add_edge(rt_source, tweet["from_user"], {"tweet_id" : tweet["id"]})

■P14 コード上から14行目

誤:
>>> sorted(nx.degree(g))
正:
>>> sorted(nx.degree(g).values())

■P248 下から7、8行目

誤:
...仮説の検証に...
...仮説を検証するために...
正:
...仮説の検定に...
...仮説を検定するために...

■P288 下から2行目

誤:
真陰性(FN:False negative)
正:
真陰性(TN:True negative)

■P289 上から1行目

誤:
偽陰性(TN:True negative)
正:
偽陰性(FN:False negative)

目次

目次
序章
この本を読むべきか
あるいは読まざるべきか
必要条件とツール
凡例
コードサンプルの使い方
問い合わせ先
謝辞


1章 イントロダクション : Twitterデータのハック
    1.1 Pythonのインストール
    1.2 Twitterデータの収集と操作
    1.3 まとめ

2章 マイクロフォーマット: セマンティックマークアップと常識のずれ
    2.1 XFNとその仲間たち
    2.2 XFNによるソーシャルなつながりの解析
    2.3 Geocoordinates: ほぼすべての情報をつなぐ共通の糸
    2.4 レシピのみじん切り
    2.5 レストランの評価の収集
    2.6 まとめ

3章 古き良きメールボックス
    3.1 mbox: Unixメールボックスについての大雑把な説明
    3.2 mbox + CouchDB = 気楽な電子メール分析
    3.3 対話の順序の復元
    3.4 SIMILE Timelineによるメール「イベント」の可視化
    3.5 自分のメールデータの分析
    3.6 まとめ

4章 Twitter: フォローしている、フォローされている、集合演算
    4.1 RESTfulとOAuthを着込んだ API
    4.2 無駄がなく必要最小限なデータ収集マシン
    4.3 友人関係グラフの作成
    4.4 まとめ

5章 Twitter: ツイート、すべてツイート、ツイートそのもの
    5.1 ペンは剣よりも強し。では Twitterとマシンガンでは?
    5.2 ツイートの分析(1度に 1エンティティ)
    5.3 隠されたソーシャルネットワークの類似性(#JustinBieberと #TeaParty)
    5.4 ツイートの可視化
    5.5 まとめ

6章 LinkedIn: プロフェッショナルネットワークのクラスタリング
    6.1 なぜクラスタリングか
    6.2 職名による知人情報のクラスタリング
    6.3 拡張プロフィール情報の取得
    6.4 ネットワークの地理的なクラスタリング
    6.5 まとめ

7章 Google Buzz: TF-IDF、コサイン類似度、コロケーション
    7.1 Buzz = Twitter + ブログ(???)
    7.2 NLTKによるデータハック
    7.3 テキストマイニングの基礎
    7.4 類似文書の検索
    7.5 バイグラムの分析
    7.6 Gmailの操作
    7.7 OAuthによる Gmailへのアクセス
    7.8 サーチエンジンを作ろうとする前に
    7.9 まとめ

8章 ブログその他: 自然言語処理(さらにその先へ)
    8.1 NLPについてのパレートの法則風入門
    8.2 NLTKを使った典型的な NLPパイプライン
    8.3 NLTKでブログ内の文を検出する
    8.4 文書の要約作成
    8.5 エンティティ中心の分析 : データのより深い理解
    8.6 まとめ

9章 Facebook: オールインワンのソーシャルウェブ環境
    9.1 ソーシャルネットワークデータへのアクセス
    9.2 Facebookデータの可視化
    9.3 まとめ

10章  セマンティックウェブ: 自由討論
    10.1 発展的な革命?
    10.2 人は事実だけでは生きていけない
    10.3 希望

索引