2012 Fiscal Year Annual Research Report
音声言語情報に含まれるプライバシ情報の保護に関する研究
Project/Area Number |
22650034
|
Research Institution | Toyohashi University of Technology |
Principal Investigator |
中川 聖一 豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (20115893)
|
Co-Investigator(Kenkyū-buntansha) |
山本 一公 豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (40324230)
土屋 雅稔 豊橋技術科学大学, 学内共同利用施設等(情報メディア基盤センター), 助教 (70378256)
|
Project Period (FY) |
2010-04-01 – 2013-03-31
|
Keywords | プライバシ保護 / 音声認識 / 人名抽出 / 人名除去 / 固有名認識 / 個人情報 |
Research Abstract |
音声中のプライバシ情報を保護するためには、発声者の隠蔽(声質変換)とプライバシに関する内容の除去が必要である。平成24年度は、プライバシの代表的な情報である人名の抽出とその部分の音声除去に取り組んだ。これは、大語彙連続音声認識で人名と認識された区間を除去すれば、目的が達成できるわけではない。その理由は音声認識誤りと、音声認識用の辞書に含まれていない人名は認識できないことによる。そこで、人名の抽出精度を上げ、抽出漏れを極力減らす方法を提案した。そのため、①大語彙連続音声認識における言語モデルで、人名の出現予測確率を大きくすることで人名の認識漏れを防ぐ方法、②類似した発音の人名が辞書に存在するように辞書に登録する人名を増加させ、人名は発音の類似した人名に誤認識されるようにする方法、③新しく登録した人名の予測確率を与えるためにクラス言語モデルを導入する方法、④辞書に存在しない人名は任意の音節列として認識する方法、を検討した。 NHKのニュース音声を対象に、人名の抽出実験を行った。本研究の目的は、人名を正しく抽出することであり、他の人名に誤認識となっても正解とした。ベースラインで、辞書に存在しない人名の再現率14%、精度2%であったものが、上述の4手法を併用することにより、再現率87%、精度12%に向上した。これは、ニュース音声中の人名の出現率は約1%であることから、1000単語中(人名が10単語)、人名として80単語抽出し、そのうち、9単語が正しい人名であったということに対応する。音声の10%程度が誤っても(欠如しても)、意味的にはほぼ正しく理解できることから、本手法は、初期の目標を達成したと言える。勿論、実用的には、再現率を100%に近づける必要はあるが、音声認識システムの向上により、可能になっていくと考えられる。
|
Current Status of Research Progress |
Reason
24年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
24年度が最終年度であるため、記入しない。
|
Research Products
(6 results)