研究課題/領域番号 |
25540096
|
研究機関 | 京都大学 |
研究代表者 |
荒牧 英治 京都大学, デザイン学ユニット, 特定准教授 (70401073)
|
研究分担者 |
森田 瑞樹 東京大学, 情報理工学(系)研究科, 研究員 (00519316)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 自然言語処理 / 医療情報 / 個人情報 |
研究実績の概要 |
本研究では特定の文章のみに出現する文字列を削除することによって,個々のテキストを特定できなくする技術(テキストのk匿名化)を開発している. 従来の匿名化は個人名,施設名などの固有表現を削除するものであった.本研究が提案する匿名化は,新しい概念の匿名化であり,テキストをどのような文字列で文章を検索しても,ヒットする件数はk件以上となるかもしくはヒットしない状態を作る技術である.この匿名化はこれまでの匿名化の欠点であった,「固有名以外の部分から」個人を特定できてしまうという従来の問題をクリアできる斬新な手法である.また,匿名化の定義は明確であり,匿名化に失敗するという可能性はない. ただし,匿名化にあたって多くの文が削除されてしまうと用途に適さない可能性があった.昨年度からの取り組みにより,削除する文字列を最小にする効率のよい計算方法(工学的問題),どの程度の文字列が削除されるかの推定(数理的問題)という問題に一定の解決をみて,本年度は,実際の運用例に作る点を重視し,研究を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
申請時に,素案があったアイデアを昨年度までに高速化,緻密化できた.さらに,以下の仮想シナリオ応用を試みた. ・著作権無効化シナリオ:収集したtweetデータを配布したい.ただし,発言は各個人の著作物であるので,公開できない.そこで,著作権を所有できない一般的表現のみを抽出し公開する. ・文章校正シナリオ:英語論文を執筆している.英語が不慣れなため,世の中の論文で一般的な表現と,自分しか使っていない表現を可視化したい. ・剽窃表現の特定:学生レポートを集めた.ウィペディアからのコピー,友人間のコピーなどの剽窃を判定したい. いずれにおいて,提案手法が適応可能であり,研究は当初の計画どおり進展している.
|
今後の研究の推進方策 |
本年度は,本研究の匿名化技術を用いて,医学的な臨床応用例の確立を目指す. これは,本年度,京都大学医学部附属病院神経内科にて収集している認知症患者の語りのデータ(30名)を用いて行う予定である. さらに,他予算で収集しているテキストデータにおいても,逐次,適応予定である. 実際に,医療での応用例を重ねることによって,本研究成果の普及,しいては,社会還元を目指したい.
|