|
目次
訳者まえがき
クレジット
まえがき
1章 ウォーミングアップ
1. スパイダリングとスクレーピング早わかり
2. あなたとスパイダの心得集
3. HTMLページの構造
4. スパイダの登録
5. 照会前に自己紹介
6. 厄介な状況に陥らないようにする
7. 識別コードを見つける
2章 道具を揃える
8. Perlモジュールのインストール
9. LWP::Simpleを用いた簡単なデータ取得
10. LWP::UserAgentを用いたより複雑なリクエスト
11. リクエストにHTTPヘッダを追加する
12. LWPを用いたフォーム情報の送信
13. 認証、クッキー、プロキシ
14. 相対URLと絶対URLの取り扱い
15. SSLとブラウザ属性の設定
16. スクレーピング対象の作業負荷を軽減する
17. robots.txtを尊重する
18. スクリプトにプログレスバーを追加する
19. HTML::TreeBuilderを用いたスクレーピング
20. HTML::TokeParserを用いた解析
21. WWW::Mechanizeの基本
22. WWW::Mechanizeを用いたスクレーピング
23. 正規表現礼賛
24. Template::Extractを用いてRSSを作成する
25. XPath早わかり
26. curlやwgetを用いたダウンロード
27. wget応用編
28. コマンドの連鎖実行にパイプを使用する
29. 複数のユーティリティを一度に実行する
30. Web Scraping Proxyの利用
31. 異常の検出
32. サイトの模様替えに備える
3章 メディアファイルの収集
33. 調査の事例:Newgrounds
34. 調査の事例:iFilm
35. 米国議会図書館から動画をダウンロードする
36. Webshotsから画像をダウンロードする
37. dailystripsを用いてコミックをダウンロードする
38. お気に入りのウェブカムをアーカイブする
39. あなたのサイトに写真ニュースを
40. POP3サーバから電子メールの添付ファイルだけを保存する
41. プレイリストからMP3ファイルをダウンロードする
42. ngetを用いてニューズグループからダウンロードする
4章 データベースからのデータ収集
43. yahoo2mboxを用いて米Yahoo! Groupsのメッセージをアーカイブする
44. WWW::Yahoo::Groupsを用いて米Yahoo! Groupsのメッセージをアーカイブする
45. @nifty瞬!ワードからデータを取得する
46. Yahoo!全体のスパイダリング
47. Yahoo! JAPANの新着情報を追跡する
48. 米Yahoo!とGoogleを組み合わせた拡散検索
49. Yahoo! JAPANカテゴリ内のマインドシェアをGoogleで調べる
50. Googleの検索結果からblog絡みのものを除去する
51. Googleを用いて特定のサイト群を検索する
52. Yahoo!テレビを使って番組の検索を行う
53. Yahoo!ブックスから、自分の好みにあった新刊書籍情報を取得する
54. Yahoo!ショッピングから売上ランキングの高い商品の情報を調べる
55. 気象庁サイトから月間気象情報を取得する
56. 国土交通省サイトから自動車のリコール情報を取得する
57. Googleの検索結果をAlexaのトラフィックランク順に表示する
58. Javaを用いてAlexaから情報をスクレーピングする
59. FreeDBとAmazon.comを用いてアルバム情報を検索する
60. 流行の先端を行く音楽を見つける
61. 毎日のホロスコープをiPodに保存する
62. RRDTOOLを用いたデータのグラフ化
63. 株価情報の収集
64. スーパー著者検索
65. O'Reillyのベストセラーと図書館の蔵書状況を比較する
66. All Consumingのサイトから書籍一覧を入手する
67. FedExを利用した荷物の配送状況を追跡する
68. blogの新規コメントを確認する
69. RSSの集約と更新の通知
70. TechnoratiのLink Cosmosを使用する
71. 関連のあるRSSフィードの検索
72. blogの自動検索
73. 国立国会図書館から明治時代の書籍をダウンロードする
74. お客さんのいる場所のお天気は?
75. ジオターゲティングを用いたトレンドの予測
76. ヨーロッパを走る鉄道の最適ルートを調べる
77. 住所から2点間の距離を求める
78. スーパー単語検索
79. Lexical Freenetを用いて英単語の関係を調べる
80. Bugtraqレポートの整形
81. ウェブの更新を電子メールで通知する
82. Internet Explorerのお気に入りをウェブサイトで公開する
83. 気になるニュースをケータイに送信する
84. PHPを用いたスパイダリング
85. 複数の検索エンジンからの結果を集積する
86. ロボットカラオケ
87. Yahoo!オークションの検索
88. レストランクーポン情報の取得
89. お下劣サイトの判定
5章 コレクションを維持管理する
90. 作業の自動化にcronを使用する
91. cronを使用せずに作業をスケジューリングする
92. wgetとrsyncを用いたウェブサイトのミラーリング
93. 検索結果数の長期的な変化を追跡する
6章 世の中に還元する
94. XML::RSSを用いたデータの再利用
95. あなたのサイトにRSSのヘッドラインを表示させる
96. リソースをスクレーピングしやすい形で公開する
97. RESTインタフェースによるリソースの公開
98. XML-RPCによるリソースの公開
99. AIMインタフェースを使用する
100. 本書を読んだ後は
付録 日本語処理[訳者補]
101. Perlと日本語処理
索引
書籍紹介ページへ戻る
|
O'Reilly Japan
Home | O'Reilly Media, Inc.
©2005, O'Reilly Japan, Inc.
|
|