現在,医療のIT化が進み,その結果,かつてない大量の臨床データが電子化された状態でストックされつつある.このデータを有効に利用することができれば患者の生活習慣と疾患の相関(例えば,喫煙と癌)や,薬品とその副作用の相関(タミフルと精神障害)について過去類を見ない大規模な調査が可能となり,臨床研究が加速的に進展するとして高い期待が寄せられている.しかし,単にデータを電子化しただけで,大規模な調査が可能となるわけではない.実際に大規模にカルテを共有し解析するためにはこれらを匿名化する必要がある.さらに,電子カルテには自然言語で入力される箇所が相当な割合で存在するため,データをフル活用するためには,まず,文章を匿名化する必要がある. 我々も2006年から匿名化の研究を開始し,2007年ではF値0.98という高い精度で,個人情報を除去に成功している.しかし,このような高精度であってもカルテの提供にあたっては問題が生じる.例えば,「2012年の小児の移植ドナー」など年間に数例しか行われない治療であった場合,個人情報の範囲外である単なる年代と術名の組み合わせから個人を特定可能な場合がある.また,筆記上の特徴から医師が判明可能である可能性もある. このような個人情報の削除だけでは十分な匿名化と言えない場合に対応するため,本研究では,文章固有の表現を削除することで,文章を特定不可能とする新しいタイプの匿名化を提案した.これは,任意の文字列が最低k回以上出現するようにテキストの一部を削除するものであり,筆者らはこれを<テキストのk匿名化>とよび,そのアルゴリズムについて発表を行った. さらに,<テキストのk匿名化>を実用化するために必須となる高速化について研究を行った.これらはする論文発表(国内2本)され,さらに,提案する匿名化手法を実装したデバイス(匿名コピー)を開発した.
|