2004 Fiscal Year Annual Research Report
未登録語を含むタスク外発語を受理する音声認識方式の研究
Project/Area Number |
14380168
|
Research Institution | Waseda University |
Principal Investigator |
匂坂 芳典 早稲田大学, 大学院・国際情報通信研究科, 教授 (70339737)
|
Co-Investigator(Kenkyū-buntansha) |
白井 克彦 早稲田大学, 理工学術院, 教授 (10063702)
小林 哲則 早稲田大学, 理工学術院, 教授 (30162001)
|
Keywords | 連続音声認識 / 未登録語 / 統計的言語モデル / 階層的言語モデル / 単語クラスモデル / 音韻連接特性 |
Research Abstract |
本年度は、検討してきた階層化クラス言語モデルの適応限界を知るため、映画題名等の複数単語からなる未登録語を含む音声の認識実験を行った。昨年までの実験的検討により、単一の未登録単語を含む音声の認識性能はほぼ把握できたが、実際の使用場面ではさらに困難な未登録語が存在する。複数の単語からなる映画や本の題名は構成単語全体からなる単語の集まりそのものを一つの事項(Named entity)として認識することが望ましく、単一の単語そのものの音韻連接制約をそのまま用いて取り扱うことは難しいと思われる。このため、従来のNグラム単語モデルに対し、未登録表現を構成する複数単語の連接を一つの統計的言語モデルとして表現したものを埋め込んだ階層化言語モデルを新たに提案した。 未登録表現として日本映画のタイトルを用い、映画タイトル検索表現のタスクに対する音声認識実験を行った。実験には提案モデルに加え、比較のため、未登録語処理をしていない従来モデル、これまで我々が検討してきた単一単語の音韻連接制約を用いた旧階層化言語モデル、全ての単語を辞書に入れた上限モデルに対する性能評価を行った。実験の結果、音声認識率(単語accuracy)は、提案モデル66.30%、従来モデル32.86%、旧階層化言語モデル55.66%、上限モデル71.50%となることが判明し、性能上限に近い認識率を示すことが判明した。さらに、映画タイトルクラスとしての音声認識率(accuracy/correct)は98.23%、65.0%となり、未登録表現を構成する内容語復元率も59.05%となった。これらの数字から、未登録表現そのものが与えられなくとも、それらを構成する単語の統計的連接特性により、ある程度の認識が可能であることが確認でき、提案する階層化クラス言語モデルの適応限界が広がった。
|
Research Products
(4 results)