研究課題/領域番号 |
26330153
|
研究機関 | 電気通信大学 |
研究代表者 |
吉浦 裕 電気通信大学, 情報理工学(系)研究科, 教授 (40361828)
|
研究分担者 |
久保山 哲二 学習院大学, 計算機センター, 教授 (80302660)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 匿名化 / 個人特定 / 機械学習 |
研究実績の概要 |
匿名情報からの個人特定手法に関して,下記の検討を行った. (1)ソーシャルメディアの投稿文の発信元を特定する技術を検討した.本技術は,ソーシャルメディアの匿名の発言(たとえば内部告発)を,社員等の履歴書と照合することで,投稿者を特定する.平成26年度には,発言中の単語と履歴書中の単語の繋がりをWeb検索によって定量化する手法を検討したが,平成27年度には,この手法を単語の出現頻度および希少度に基づく手法と組み合わせ.63%の精度で個人特定が可能であることを示した. (2)機械学習を用いて上記(1)と同じ個人特定を行う技術を検討した.代表的な3つの機械学習法(RadamForest, Support vector machine, Logistic regression)を用いて基本的な手法を設計した.この手法は,履歴書中の属性(住所,学歴等)毎に機械学習によって識別器を構築し,複数の識別器の結果を線形結合によって統合する.予備評価の結果,最も精度の高いRandomForestの場合に20%精度で個人を特定できた. (3)WiFi基地局を通じて取得した移動経路から個人が特定される可能性を検討した.被験者より,移動経路とソーシャルメディアのアカウントを頂き,移動経路とソーシャルメディアの投稿文を照合する手法を設計した.この手法は,移動履歴中の緯度・経度を地名に変換し,投稿文中の地名と照合する.予備評価の結果,25%の精度で正しい照合ができた.本検討を上記(1)(2)の検討と合わせることで,移動履歴とソーシャルメディアと履歴書の3者間照合により,移動履歴から個人特定が可能となる. (4)実用場面で用いられる移動履歴の匿名化手法を調査した.また,移動履歴の利活用を調査し,匿名化の影響を受ける代表的な活用方法を明らかにした.これに基づき,移動履歴における匿名化度合(安全性)と活用の度合(有用性)のトレードオフを評価する実験計画を立案した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
自然言語文,画像,移動履歴について,匿名化された情報からの個人特定を多面的に検討した.自然言語文については,単語の出現頻度と希少度に基づく基本的な手法,Web検索を用いる手法の検討を完了し,機械学習に基づく手法の基本設計と予備評価を行った.画像においては,個人特定のモデルを検討し,それに基づく対策技術を提案した.移動履歴については,ソーシャルメディア投稿文との照合方式の基本設計と予備評価を行うと共に,実用場面で用いられている匿名化手法を調査した. ただし,研究着手前に入手していた3000人規模のWiFi移動履歴を用いて検討を行ったところ,WiFi移動履歴には欠落が非常に多く,3000人規模では統計的に有意な評価ができないことが判明した.そのため,通信事業者との新たな契約および所属大学の倫理審査を経て,80000人規模の移動履歴を入手し,これらの移動履歴の分析・整理を完了した.また,現実の場面では,何らかの利活用を想定して匿名化を行うため,匿名化(安全性)と利活用(有用性)の視点からの検討が必要であることが明らかになった.そのため,代表的な利活用方法のうち匿名化の影響を受けるものを調査した.これらの手続き,再検討および新たな検討の結果,移動履歴における匿名化と個人特定の評価実験を行うことができなかった.
|
今後の研究の推進方策 |
画像については,個人特定手法,そのモデル化,対策技術の検討を一貫して行ったので一旦終了とする.自然言語文については,単語の出現頻度と希少度に基づく基本的な手法,Web検索を用いる手法の検討は一旦終了とし,機械学習に基づく手法に注力する.その際,履歴書の属性毎の識別結果の統合手法として,平成27年度に検討した線形結合の代わりにアダブースト等のより高度な手法を用いることで,多数の識別結果の有効活用が可能になると予想している.移動履歴と自然言語文の照合については,平成27年度に検討した地名間の照合に加え,地名の現れた時間を考慮することで,個人特性精度を向上する.移動履歴については,平成27年度の調査・分析を踏まえ,実用場面で採用されている匿名化および活用法を実装し,匿名度合(安全性),活用度合(有用性),個人特定(安全性へのリスク)の3者間の評価を行う.
|
次年度使用額が生じた理由 |
当初計画では,前年度に3000人規模の移動履歴の匿名化を実装し,個人特定の実験を行う予定であった.しかし上述したように,WiFi移動履歴には欠落が非常に多く,3000人規模では統計的に有意な評価ができないことが判明した.そのため,通信事業者との新たな契約および所属大学の倫理審査を経て,80000人規模の移動履歴を入手し,このデータを用いて匿名化の実装と個人特定実験を行うことにした.また,現実の場面では,何らかの利活用を想定して匿名化を行うため,匿名化(安全性)と利活用(有用性)の視点からの検討が必要であることが明らかになった.以上の結果,当初計画の匿名化実装と個人特定実験を行うことができず,謝金の使用額が予定よりも少なかった.
|
次年度使用額の使用計画 |
上記の80000人規模の移動履歴の分析・整理は完了し,また,代表的な利活用方法のうち匿名化の影響を受けるものの調査も完了した.そこで,平成28年において,匿名化の実装と個人特定実験を加速して行う.そのために,アルバイトを増員し,前年度利用予定であった謝金と28年度使用予定の謝金を投入し,上記の研究の遅れを可能な限り回復する.
|