データ匿名化手法

―ヘルスデータ事例に学ぶ個人情報保護

Khaled El Emam、Luk Arbuckle　著、木村映善、魔狸　監訳、笹井崇司　訳

TOPICS: Database
発行年月日: 2015年05月23日
PRINT LENGTH: 272
ISBN: 978-4-87311-724-9
原書: Anonymizing Health Data
FORMAT: Print PDF

オンライン学習プラットフォーム

購読可
いますぐ読む

Ebook

3,080円
Ebookを購入する

Print

3,080円

書籍のご注文はオーム社サイトへ

データがビジネスを駆動する現在、さらなるサービスの進化と利便性を推進するために、個人に関する情報は不可欠です。本書は、機微な個人情報を多く含むヘルスデータを題材に、プライバシー保護とデータ有用性という相反する命題をいかに満たすかについて、豊富な実例とともに解説する書籍です。リスクベースの非特定化方法論、横断的データ、縦断的イベントデータ、データリダクション、地理空間の集約、マスキングなどデータの匿名化に必要な事柄を網羅的に解説します。医療者はもちろん、個人のプライバシーを守りつつ、より洗練されたサービスを提供したいエンジニア、データ技術者必携の一冊です。

監訳者まえがき
まえがき

1章　イントロダクション
    1.1　匿名化すべきか、せざるべきか
        1.1.1　同意を得るか、匿名化するか
        1.1.2　お金を節約する
        1.1.3　人目に触れたくない
    1.2　匿名化における2本の柱
        1.2.1　マスキングの標準
        1.2.2　非特定化の標準
    1.3　実際の匿名化
        1.3.1　組織の準備
        1.3.2　実用的なものにする
        1.3.3　ユースケース
    1.4　差別を生む分析
    1.5　他の分野における匿名化
    1.6　本書について

2章　リスクベースの非特定化方法論
    2.1　基本原則
    2.2　非特定化方法論の手順
        2.2.1　ステップ1：直接識別子（識別子）と間接識別子（準識別子）
        2.2.2　ステップ2：閾値を設定する
        2.2.3　ステップ3：起こりそうな攻撃について調べる
        2.2.4　ステップ4：データを非特定化する
        2.2.5　ステップ5：プロセスを文書化する
    2.3　起こりそうな攻撃のリスク測定
        2.3.1　T1：故意による再特定の試み
        2.3.2　T2：故意でない再特定の試み
        2.3.3　T3：データ侵害
        2.3.4　T4：公開データ
    2.4　再特定リスクの測定
        2.4.1　確率メトリクス
        2.4.2　情報損失メトリクス
    2.5　リスク閾値
        2.5.1　閾値を選ぶ
        2.5.2　閾値を満たす
    2.6　危険な仕事

3章　横断的データ：研究レジストリ
    3.1　プロセスの概要
        3.1.1　二次利用と開示
        3.1.2　データの入手
        3.1.3　研究プロトコルの策定
        3.1.4　データアクセス委員会との交渉
    3.2　オンタリオ州のBORN
        3.2.1　BORNデータセット
    3.3　リスクアセスメント
        3.3.1　脅威モデリング
        3.3.2　結果
        3.3.3　年度毎に：リスク分析の再利用
    3.4　最後に

4章　縦断的な退院時要約データ：州入院患者データベース
    4.1　縦断的データ
        4.1.1　横断的データのように扱ってはいけない
    4.2　完全な知識のもとでの非特定化
        4.2.1　おおよそ完全な知識
        4.2.2　厳密に完全な知識
        4.2.3　k−匿名性を満たす実装について
        4.2.4　完全な知識のもとでの一般化
    4.3　カリフォルニア州の州入院患者データベース
        4.3.1　カリフォルニア州のSIDとオープンデータ
    4.4　リスクアセスメント
        4.4.1　脅威モデリング
        4.4.2　結果
    4.5　最後に

5章　日付、ロングテール、相関：診療報酬請求データ
    5.1　入院患者の予測コンテスト
    5.2　日付の一般化
        5.2.1　日付を互いに無関係にランダム化する
        5.2.2　そのままの間隔で日付をずらす
        5.2.3　順序を保つように間隔を一般化する
        5.2.4　日付から間隔、そして再び日付に
        5.2.5　別のアンカー
        5.2.6　その他の準識別子
        5.2.7　関連のある日付
    5.3　ロングテール
        5.3.1　ロングテールによるリスク
        5.3.2　脅威モデリング
        5.3.3　打ち切るべき請求数
        5.3.4　どの請求を打ち切るべきか
    5.4　関連項目の相関
        5.4.1　専門家の意見
        5.4.2　予測モデル
        5.4.3　データセットの非特定化による影響
    5.5　最後に

6章　縦断的イベントデータ：災害レジストリ
    6.1　攻撃力
        6.1.1　攻撃力を抑える
        6.1.2　実際の攻撃力
        6.1.3　攻撃力のサンプリング
    6.2　WTC災害レジストリ
        6.2.1　イベントの収集
        6.2.2　WTCデータセット
        6.2.3　イベントの攻撃力
    6.3　リスクアセスメント
        6.3.1　脅威モデリング
        6.3.2　結果
    6.4　最後に

7章　データリダクション：研究レジストリ再び
    7.1　サブサンプリング
        7.1.1　どれだけ少なくできるのか
        7.1.2　すべての種類のリスクに有効ではない
        7.1.3　BORNデータへの適用
    7.2　たくさんの準識別子
        7.2.1　準識別子のサブセット
        7.2.2　カバーリングデザイン
        7.2.3　BORNデータをカバーする
        7.2.4　最後に

8章　自由形式のテキスト：電子カルテ
    8.1　正規化されていない文章
    8.2　テキスト匿名化に対する一般的なアプローチ
    8.3　匿名化済みとしてテキストをマークする方法
    8.4　評価が鍵になる
        8.4.1　適切なメトリクス―厳密であるが適正なもの
        8.4.2　検出率の基準とリスクベースのアプローチ
        8.4.3　精度の基準
    8.5　匿名化のルール
    8.6　i2b2（生物医学コンピューティング研究センター）
        8.6.1　i2b2のテキストデータセット
    8.7　リスクアセスメント
        8.7.1　脅威モデリング
        8.7.2　ルールベースのシステム
        8.7.3　結果
    8.8　最後に

9章　地理空間の集約：カナダのDAコードと米国のZIPコード
    9.1　『かいじゅうたちのいるところ』
    9.2　適切な近傍領域の探索
        9.2.1　近傍との距離
        9.2.2　近傍のサークル
        9.2.3　丸い地球
        9.2.4　平らな地球
    9.3　近傍のクラスタリング
        9.3.1　すべてには（国／州／地方自治体の）境界線がある
        9.3.2　最近傍の高速検出
    9.4　家に近過ぎる
        9.4.1　ジオプロキシ攻撃のレベル
        9.4.2　ジオプロキシ攻撃のリスク測定
    9.5　最後に

10章　医療分野におけるコード群：ハッカソン
    10.1　実際のコード
    10.2　一般化
        10.2.1　疾病コード
        10.2.2　処置コード
        10.2.3　医薬品コード
    10.3　秘匿
    10.4　シャッフリング
    10.5　最後に

11章　マスキング：腫瘍データベース
    11.1　スキーマ
    11.2　データを偽る
        11.2.1　フィールド秘匿
        11.2.2　ランダム化
        11.2.3　仮名化
        11.2.4　仮名の頻度
    11.3　動的なマスキング
    11.4　最後に

12章　セキュアな連結
    12.1　さあ、連結しよう
    12.2　セキュアな実施
        12.2.1　これらは試さないでください
        12.2.2　第三者問題
        12.2.3　連結のための基本設計
    12.3　連結のための肝心なプロトコル
        12.3.1　関係者にPaillier暗号を施す
        12.3.2　未知のもののマッチング
    12.4　スケールアップ
        12.4.1　カッコウ・ハッシング
        12.4.2　カッコウはどれくらい速いのか
    12.5　最後に

13章　非特定化とデータ品質
    13.1　有用な非特定化による有用なデータ
    13.2　損失の度合い
    13.3　仕事に配慮した非特定化
        13.3.1　データの有用性を改善するための質問
    13.4　最後に

索引

データ匿名化手法

目次

関連書籍