Head Firstデータ解析
――頭とからだで覚えるデータ解析の基本

[cover photo]
  • 2010年07月 発行
  • 480ページ
  • ISBN978-4-87311-464-4
  • フォーマット Print PDF
  • 原書: Head First Data Analysis

オライリー・ジャパンで書籍を購入:
定価3,456円

Ebook Storeで電子版を購入:
価格2,765円

初心者にも分かりやすいと人気のHead Firstシリーズのデータ解析バージョン。大量で複雑なデータを分析し、意味のある適切な情報にまとめて把握し、効果的に見せる手法は、ビジネスでも研究でも必須のスキルです。本書ではデータの収集、整理、視覚化、解析、そしてプレゼンテーションというデータ解析の手順に沿って、実際に手を動かしながらやさしく解説します。エクセルやRをはじめさまざまなデータ解析ツールを使って効果的なデータの提示方法が身につくように構成されています。『Head First Statistics』とともに読むとさらに効果的。実践で役立つ情報が満載の一冊です。

関連書籍

Head First Statistics
Head Firstソフトウェア開発
Statistics Hacks

序章
    この本を読むのにふさわしい人は?
    あなたがどう思っているかわかっています
    メタ認知
    脳を思い通りにさせるためにできること
    初めに読んでね
    テクニカルレビューチーム
    謝辞

1章 データ解析入門
    アクメコスメティックス社が助けを必要としている
    CEOはデータ解析を売上の増加に役立てたい
    データ解析とは証拠を入念に考察すること
    課題の定義
    クライアントは課題を定義するのを助けてくれる
    アクメ社の CEOからのフィードバック
    課題とデータを小さく分解する
    わかったことを再確認する
    要素を評価する
    解析は自分自身を盛り込むことから始まる
    提言する
    報告書が用意できた
    CEOが解析結果を気に入る
    記事が掲載された 
    CEOの意見から間違った方向に導かれる
    世界に関するあなたの仮定と意見はメンタルモデル
    統計モデルはメンタルモデルに左右される
    メンタルモデルには常に知らないことがある
    CEOの知らないことを聞く
    アクメ社が莫大な生データを送ってきた
    データをさらに調べるときが来た
    ゼネラルアメリカンホールセラー社であなたの直感を確認する
    ここまでに行ってきたこと
    あなたの解析がクライアントを素晴らしい判断へ導く

2章 実験
    コーヒー不況!
    スターバズの取締役会が3ヵ月後にある
    スターバズ調査
    常に比較手法を使う
    観測データでは比較が重要
    売上が落ちた理由を説明できるような点はありますか?
    典型的な客の考え
    観察的研究は交絡因子がいっぱい
    どのようにして場所が結果に対する交絡因子となるの?
    データを分割することで交絡因子を管理する
    思っていた以上に悪い!
    最も効果のある戦略を知るには実験が必要
    スターバズが値下げ
    1ヵ月後……
    対照群が基準となる
    クビにならないための基本
    (再び)本当の実験をしましょう
    1ヵ月後……
    交絡因子も実験の邪魔になる
    グループを慎重に選ぶことで交絡因子を避ける
    無作為化は類似したグループを選ぶ
    無作為性の真実
    実験の準備ができた
    結果が出る
    スターバズは売上戦略を実験的に検証した

3章 最適化
    お風呂用のおもちゃを扱う
    制約により制御できる変数が制限される
    決定変数は制御できる
    最適化問題がある
    目的関数を使って目的を実現する
    目的関数
    他の制約と一緒に製品構成を表す
    同じグラフに複数の制約を表示する
    実行可能領域に入るものだけが選択肢となる
    新しい制約で実行可能領域が変わった
    スプレッドシートが最適化してくれる
    ソルバーが最適化問題を瞬く間に解決
    利益が急落
    モデルはあなたが設定した条件だけを表す
    解析の目的に合わせて仮定を見直す
    マイナスの相関関係がある変数に注意する
    新しい計画は見事に機能している
    仮定は絶え間なく変わる現実に基づいている

4章 データの可視化
    ニューアーミー社はWebサイトを最適化する必要がある
    結果は出たが、情報デザイナはいなくなった
    前任の情報デザイナは3つのインフォグラフィックスを提出した
    可視化情報の背後にはどのようなデータがあるの?
    データを示す!
    前任のデザイナから頼みもしないアドバイスをもらう
    データは多いにこしたことはない
    データを見栄えよくすることもアナリストにとっては問題ではない
    データの可視化とは適切な比較を行うことである
    あなたの可視化方法は却下された方法よりも優れている
    散布図を使って原因を探る
    極めて多変数な可視化方法が最も優れている
    グラフを一緒に見ることで多変数を表す
    可視化は素晴らしいが、Webの権威はまだ満足していない
    優れた視覚デザインは原因を考えるのに役立つ
    実験計画担当者が介入する
    実験計画担当者にも独自の仮説がある
    クライアントはあなたの仕事に満足している
    あちこちから注文が来た!

5章 仮説検定
    スキンをください……
    新しいスキンをいつ作り始めるの?
    ポッドフォン社は次の一手を予測されたくない
    わかっていることのすべて
    エレクトロスキニー社の解析はデータに合致する
    エレクトロスキニー社が極秘の戦略メモを入手
    変数にはマイナスの関係もあればプラスの関係もある
    現実の世界での要因は線形ではなくネットワーク型である
    ポッドフォン社の判断の仮説を立てる
    仮説検定を行う必要がある
    反証が仮説検定の要
    診断性は最も反証の少ない仮説を見つけるのに役立つ
    すべての仮説を排除することはできないが、どれが最も説得力があるかはわかる
    写メールが来た……
    発売!

6章 ベイズ統計
    医者が気がかりな知らせを持ってきた
    精度解析は一度に 1つずつ行う
    トカゲインフルエンザは本当はどれくらい流行っているの?
    偽陽性を数えていた
    これらすべての用語は条件付き確率を表す
    偽陽性、真陽性、偽陰性、真陰性を数える必要がある
    1パーセントの人がトカゲインフルエンザにかかっている
    感染している可能性はやはりとても低い
    簡単な整数を使って複雑な確率を考える
    ベイズの定理は新たなデータを入手したときの基準率を算出する
    ベイズの定理を何度も使える
    ベイズの定理を何度も使える
    新検査は精度統計データが異なる
    新しい情報で基準率が変わる可能性がある
    安心だ!

7章 主観確率
    バックウォーターインベストメント社にはあなたの助けが必要
    アナリストがいがみ合っている
    主観確率は専門家の信念を表す
    結局のところ、主観確率から本当は食い違っていないのがわかる
    アナリストが主観確率を答えてくれた
    CEOはあなたの意図がわからない
    CEOがあなたの仕事を気に入る
    標準偏差は平均からの乖離を測る
    このニュースには完全に想定外
    主観確率の見直しにはベイズの定理が最適
    CEOはこの新情報への対処方法が正確にわかった
    ロシア株の保有者は大喜び!

8章 経験則
    ポイ捨て撲滅の会が議会に報告書を送った
    ポイ捨て撲滅の会はこの街を本当にきれいにしている
    ポイ捨て撲滅の会はキャンペーンの効果を測定している
    使命はごみのポイ捨て量を減らすこと
    総量は測定できない
    難しい課題を出すと、代わりに簡単な答えを返す
    データヴィルでのごみのポイ捨ては複雑系
    ごみのポイ捨て量の統一された測定モデルを構築して実現することは不可能
    経験則は直感と最適化の中間にある
    高速で倹約的なツリーを使う
    ポイ捨て撲滅の会の成功を評価するもっと簡単な方法はあるの?
    固定観念が経験則である
    解析を提示する準備ができた
    あなたの解析が議会議員の心を打ったようだ

9章 ヒストグラム
    年に一度の査定が近付く
    さまざまな方法で昇給を要求できる
    昇給に関するデータ
    ヒストグラムは数値グループの頻度を表す
    ヒストグラムの棒の隙間はデータポイントの隙間を表す
    Rのインストールと実行
    Rへのデータのロード
    Rは見事なヒストグラムを作成する
    データの部分集合からヒストグラムを作成する
    交渉は報われる
    あなたにとって交渉はどのような意味があるの?

10章 回帰
    このお金で何をしますか?
    いくら要求すべきかを教えるための解析は大変
    見て……昇給早見表!
    アルゴリズムの内部は昇給を予測する手順
    散布図は 2つの変数を比較する
    線はクライアントに目標を示す
    平均のグラフで各値を予測する
    回帰直線はクライアントが受け取る昇給を予測する
    データが線形相関を示している場合は回帰直線が役に立つ
    予想を正確にするには式が必要
    Rに回帰オブジェクトを作成させる
    回帰式は散布図と連動する
    回帰式は昇給早見表のアルゴリズム
    昇給予測は筋書き通りに成功しなかった……

11章 誤差
    クライアントがとても不機嫌
    昇給予測アルゴリズムは何を行ったの?
    顧客の区分
    25%を要求した人はモデルから除外された
    データ範囲外の予測を望むクライアントへの対処法
    外挿のためにクビになった人が冷静になる
    問題の一部を解決しただけ
    おかしな結果のデータはどうなっているの?
    確率誤差はモデルでの予測からの乖離
    誤差はあなたやクライアントの役に立つ
    確率誤差の真実
    誤差を定量的に特定する
    二乗平均平方根(RMS)誤差を使って残差分布を定量化する
    RのモデルではすでにRMS誤差がわかっている
    線形モデルの Rの要約は RMS誤差を示す
    セグメンテーションは誤差を把握するための要
    優れた回帰は説明と予測のバランスを保つ
    分割したモデルは元のモデルより誤差を適切に把握できる
    クライアントが大挙して戻ってくる

12章 リレーショナルデータベース
    データヴィル特報社が売上解析を望む
    経営状況を把握するためのデータ
    データ表の互いの関係を知る必要がある
    データベースは互いの関係を適切に規定したデータ集合
    関係の経路をたどって比較する
    この経路を横断するスプレッドシートを作成する
    要約データは記事数と売上を結び付ける
    散布図はとても評判がいい
    すべてのデータのコピー&ペーストは苦痛
    リレーショナルデータベースが関係を管理してくれる
    関係図を使って RDBMSを構築
    SQL言語を使ってデータを抽出
    データが RDBMSに入っている場合、考えられる比較は無限である
    表紙を飾る

13章 データクリーニング
    つぶれた競合他社から顧客リストを手に入れた
    データ解析の汚れた秘密
    Head Firstヘッドハンター社は営業チームのためのリストが欲しい
    未整理データのクリーニングには準備が大事
    体系化したら、データを修正できる
    #記号を区切り文字として使う
    Excelが区切り文字を使ってデータを列に分割した
    SUBSTITUTEを使ってキャレット文字を置き換える
    すべての名を整理した
    姓のパターンは SUBSTITUTEには複雑すぎる
    入れ子のテキスト式で複雑なパターンに対処する
    Rは正規表現を使って複雑なデータパターンに対応できる
    subコマンドで姓を修正した
    いよいよデータをクライアントに提示
    まだ終わりじゃない……
    データをソートして重複値を並べて表示する
    おそらくこれはリレーショナルデータベースからのデータである
    重複した名前を削除する
    適切に整理された一意のレコードを作成
    Head Firstヘッドハンター社は猛烈に人材がほしい!
    旅立ちのとき……
    ビデオデータを表示用に配置する

付録i 未収録事項
    #1:統計に関するその他のすべて
    #2:Excelスキル
    #3:エドワード・タフティと可視化の原則
    #4:ピボットテーブル
    #5:Rコミュニティ
    #6:非線形回帰と重回帰
    #7:帰無・対立仮説検定
    #8:無作為性
    #9:Google Docs
    #10:あなたの専門知識

付録ii Rのインストール
    Rを始める

付録iii Excel分析ツールのインストール
    Excelでのデータ分析ツールのインストール

ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書籍を印刷した月です。お手持ちの書籍では、すでに修正が施されている場合がありますので、書籍最終ページの奥付でお手持ちの書籍の刷版、刷り年月日をご確認の上、ご利用ください。

1刷正誤表

Head First データ解析 第1-3刷正誤表

2013年2月25日更新

位置
p.44
エクササイズ
の答え
3-4行目
12月の値は8月の値の半分であり、これは一大事です。 1月の値は8月の値の半分であり、これは一大事です。
p.121
3行目
スプレッドシートの平均式(AVGを使ってホームページの スプレッドシートの平均値の関数(AVERAGEを使ってホームページの
p.124
チャートの
左側
コメント
それぞれの点は観測を表します。 それぞれの点は観測を表します。
p.173、174
頁下側
シナリオ1
100人中90人がこの病気にかかっている場合、検査で陽性にならない人は何人ですか? 100人中90人がこの病気にかかっている場合、病気にかかっていないのに検査で陽性となる人は何人ですか?
p.173、174
頁下側
シナリオ2
100人中10人がこの病気にかかっている場合、検査で陽性にならない人は何人ですか? 100人中10人がこの病気にかかっている場合、病気にかかっていないのに検査で陽性となる人は何人ですか?
p.288
左図上の
コメント
要求が少なくても大幅な昇給を得る可能性があります…… 要求が多くても昇給が小幅な場合もあります。
p.288
左図中の
コメント
……また、要求が多くても昇給が小幅な場合もあります。 また、要求が少なくても昇給が大幅な場合もあります。
p.305
右図中の
コメント
直線の傾きは角度を測ります。 直線の傾きは角度を表します。
p.341、342
昇級早見表内
2.2%の間の場合のみ正しく機能します。 22%の間の場合のみ正しく機能します。
p.407
「素朴な疑問に
答えます」
最後
Mac版の最近のExcelのリリースではVBAが削除されたので、 Mac版の最近のExcelのリリースではVBAが削除されたので
(†監訳者注:Mac版の最新のリリースされているExcelでは、VBAが復活しています。)
p.425
4行目
さまざまな可視化方法を提供するガジェット機能も持っています。 さまざまな可視化方法を提供するガジェット機能も持っています
(†監訳者注:Google Docsのガジェット機能は、2013年の初旬に廃止が決定しています。可視化に関しては、スプレッドシートからのグラフ機能で対応可能です。)

Feedback

皆さんのご意見をお聞かせください。ご購入いただいた書籍やオライリー・ジャパンへのご感想やご意見、ご提案などをお聞かせください。より良い書籍づくりやサービス改良のための参考にさせていただきます。
[feedbackページへ]