プライバシー保護への声が強まる一方だが、機密の個人データベースから個人を特定できる情報を削除すればプライバシー対策は大丈夫と思っているとすれば、考え直した方がいい。我々が思っているよりも再特定は簡単だとsophos naked securityが指摘している。

データを匿名化する「de-identifying (anonymizing) data」という考えがある。名前、住所をデータベースから機密情報を削除すれば、特定の人と認識せずにデータ分析できるというものだ。「EU一般データ保護規則」(GDPR)の第28条では、機密のデータに関するリスクを削減する方法として、この方法を推奨しているそうだが、Nature Communicationsに掲載された調査(ベルギーのルーヴァン・カトリック大学と英インペリアル・カレッジ・ロンドンの研究者)は、この考え方そのものに疑問を投げかけるものとなったのだという。

研究者らは報告書で、特定の個人らしい人が正確に再特定されることを指摘している。データセットに含まれる個人についての情報が増える(例えば、同居している人の数、車の色、ペットの有無)と、同じような人がいる可能性は低くなる。モデルを使うことで、15種類の人口属性を使って任意のデータセットにある99.98%のアメリカ人を正しく再特定できるとする。

機械学習プログラムを書き、理論が正しいかどうかをテストするために不完全なデータセットでトレーニング。210種類の人口統計と調査のデータセットを使い、かなり高い率で人を特定。それら結果から、匿名化というコンセプトそのものに疑問を抱くことになったという。

「しっかりとサンプル化され匿名化されたデータセットですら、GDPRが定める匿名化の標準を満たさないと言える。匿名化の"release and forget"モデルが技術的かつ法的な妥当性に深刻な課題がある」と研究者らは記している。

優れた統計スキルを持つ人が匿名データセットから再特定できることは、過去の例からも明らかだ。例えば2015年、マサチューセッツ工科大学(MIT)の研究者らは、曖昧な購入データから高い精度で購入者を推論して驚かせた。今回の報告書の新しい側面は、アイデンティティの再構築が想像よりもはるかに簡単であることを研究者らが示したということだろうとSophos nakede securityでは、匿名化という手法の再考を促している。また、先述の研究者らが公開している、どのぐらいの情報を与えると自分が特定できるのかを試すオンラインツールを紹介している。ツールは、英国/米国、郵便番号、生年月日、性別とランダムに入力して特定可能かを確率を示すものだ。当然ここには個人情報は無いが、別の情報を持つものがいわゆる"突合"(データ同士の付け合わせ)を行うことで特定されることを示している。