2016 Fiscal Year Research-status Report
匿名化技術への体系的な個人特定攻撃および防御手法の研究
Project/Area Number |
26330153
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
吉浦 裕 電気通信大学, 大学院情報理工学研究科, 教授 (40361828)
|
Co-Investigator(Kenkyū-buntansha) |
久保山 哲二 学習院大学, 付置研究所, 教授 (80302660)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | 匿名化 / プライバシー保護 / 個人特定 |
Outline of Annual Research Achievements |
匿名情報からの個人特定手法に関して,下記の検討を行った. (1)ソーシャルメディアの投稿文の発信元を特定する技術を検討した.本技術は,ソーシャルメディアの匿名の発言(たとえば内部告発)を,社員等の履歴書と照合することで,投稿者を特定する.平成27年度までに自然言語処理に基づく手法を検討した.平成28年度には,機械学習を用いる手法を検討した.この手法は,履歴書中の属性(住所,学歴等)毎に機械学習によって識別器を生成し,複数の識別器の結果を線形結合によって統合する.5つの機械学習法を用いた評価実験の結果,最も精度の高いGradient Boosting Decision Treeを用いた場合に50%の精度で個人が特定できた. (2)WiFi基地局を通じて取得した移動経路から個人が特定される可能性を検討した.所属大学の学生16名より承諾を得て,移動経路とソーシャルメディアのアカウントを取得し,移動経路とソーシャルメディアの投稿文を照合する手法を設計した.移動履歴中の緯度・経度を地名に変換し,投稿文中の地名と照合する言語ベースの手法と,投稿文中の地名を緯度・経度に変換し.移動履歴と比較する幾何ベースの手法を検討し,幾何ベースの手法に時間の一致度を加味することで,63%の精度で正しい照合ができた.本検討を上記(1)の検討と合わせることで,移動履歴とソーシャルメディアと履歴書の3者間照合により,移動履歴から個人特定が可能となる. (3)WiFi通信事業者との契約および所属大学の倫理審査を経て,訪日外国人観光客160000人の移動履歴を入手し,移動の仕方から個人情報が検知できるかを検討した.代表的な4つの機械学習法を用いた評価の結果,人数の多い8か国のなかから25%の精度で国籍を特定することができた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
自然言語文,画像,移動履歴について,匿名化された情報からの個人特定を多面的に検討した.自然言語文については,単語の出現頻度と希少度に基づく基本的な手法,Web検索を用いる手法,機械学習に基づく手法を各々設計し,評価を行った.画像においては,個人特定のモデルを検討し,それに基づく対策技術を提案した.移動履歴については,ソーシャルメディア投稿文との照合方式の設計と評価を行うと共に,より大規模な評価実験のためのデータを準備した. ただし,訪日外国人観光客160000人の移動履歴において,当初は行列分解を用いた特徴抽出を行ったところ,個人の特定につながる分析結果が得られなかった.また,国籍の推定についても最初はベイズ推定を用いたところ有意な結果が得られなかった.最終的にSupport Vector Machineを用いて有意な結果に至るまでに多くの時間を費やした.そのため,都道府県間のおおまかな移動傾向を分析するにとどまっている.入手したデータにはZIPコードレベルの詳細な移動が含まれているが,その分析はできなかった.また,移動履歴とソーシャルメディアの照合では,被験者の募集が困難であったため,16人規模の評価実験しかできなかった.
|
Strategy for Future Research Activity |
画像については,個人特定手法,そのモデル化,対策技術の検討を一貫して行ったので一旦終了とする.自然言語処理を用いたソーシャルメディアの投稿文の発信元推定については,平成28年度に検討した線形結合の代わりにアダブースト等のより高度な手法を用いることで,多数の識別結果の有効活用が可能になると予想している.移動履歴とソーシャルの照合については,平成28年度に検討した手法について,50名超の被験者による評価実験を行うと共に,機械学習を用いて提案法の最適化を行う.訪日外国人の移動履歴については,平成28年度の検討結果を踏まえ,ZIPコードレベルの分析により,国籍推定の精度向上および年齢,性別の推定を可能とする.また,実用場面で採用されている匿名化および活用法を実装し,匿名度合(安全性),活用度合(有用性),個人特定(安全性へのリスク)の3者間の評価を行う.
|
Causes of Carryover |
当初計画では,平成28年度に160000人の訪日外国人の移動履歴から個人情報の抽出を行う実験を計画していた.しかし,上述したように,行列分解による手法,ベイズ推定による手法を評価したところ有意な結果を得られず,Support Vector Machineを用いて有意な結果に至るまでに多くの時間を費やした.そのため,都道府県間のおおまかな移動傾向を分析するにとどまった.また,移動履歴とソーシャルメディアの照合では,被験者の募集が困難であったため,16人の小規模な評価実験しか行えなかった.以上の結果,当初計画より研究が遅延し,国際発表の出張旅費,学術論文の投稿料,謝金の使用額が予定よりも少なかった.
|
Expenditure Plan for Carryover Budget |
訪日外国人の移動履歴の分析については,都道府県レベルの分析の経験に基づいて,ZIPコードレベルの分析を加速する.そのために謝金により実装評価の要員を雇用する.移動履歴とソーシャルメディアの照合については,50名超の被験者のデータを29年度4月末に取得済であり,これから謝金を支払う.また,これらの課題に関する研究成果を国際会議にて発表するので,旅費に充当する.機械学習を用いたソーシャルメディアの投稿者の推定について学術論文を投稿済であり,採録の場合には投稿料を支払う.
|