研究課題
音声中のプライバシ情報を保護するためには、発声者の隠蔽(声質変換)とプライバシに関する内容の除去が必要である。平成24年度は、プライバシの代表的な情報である人名の抽出とその部分の音声除去に取り組んだ。これは、大語彙連続音声認識で人名と認識された区間を除去すれば、目的が達成できるわけではない。その理由は音声認識誤りと、音声認識用の辞書に含まれていない人名は認識できないことによる。そこで、人名の抽出精度を上げ、抽出漏れを極力減らす方法を提案した。そのため、①大語彙連続音声認識における言語モデルで、人名の出現予測確率を大きくすることで人名の認識漏れを防ぐ方法、②類似した発音の人名が辞書に存在するように辞書に登録する人名を増加させ、人名は発音の類似した人名に誤認識されるようにする方法、③新しく登録した人名の予測確率を与えるためにクラス言語モデルを導入する方法、④辞書に存在しない人名は任意の音節列として認識する方法、を検討した。NHKのニュース音声を対象に、人名の抽出実験を行った。本研究の目的は、人名を正しく抽出することであり、他の人名に誤認識となっても正解とした。ベースラインで、辞書に存在しない人名の再現率14%、精度2%であったものが、上述の4手法を併用することにより、再現率87%、精度12%に向上した。これは、ニュース音声中の人名の出現率は約1%であることから、1000単語中(人名が10単語)、人名として80単語抽出し、そのうち、9単語が正しい人名であったということに対応する。音声の10%程度が誤っても(欠如しても)、意味的にはほぼ正しく理解できることから、本手法は、初期の目標を達成したと言える。勿論、実用的には、再現率を100%に近づける必要はあるが、音声認識システムの向上により、可能になっていくと考えられる。
24年度が最終年度であるため、記入しない。
すべて 2013 2012 その他
すべて 雑誌論文 (1件) 学会発表 (4件) 図書 (1件)
IEICE Trans. Inf. & Syst.
巻: Vol.E95-D, No.9 ページ: 2308-2316
10.1587/transinf.E95.D.2308