2005 Fiscal Year Annual Research Report
文脈を含む多角的な発話検証を可能にする対話音声理解システムの開発
Project/Area Number |
17700181
|
Research Institution | Shizuoka University |
Principal Investigator |
甲斐 充彦 静岡大学, 工学部, 助教授 (60283496)
|
Keywords | 韻律特徴 / 統計的モデル / キーワードスポッティング / 話し言葉 / 大語彙音声認識 / 誤り要因 / 相互情報量 / HMM |
Research Abstract |
本年度は、本研究の目的とする多角的な発話検証のための基礎的なデータ収集および分析に焦点を当てた研究を行い、下記の成果を得た。 1.キーワードレベルの発話検証のためのアクセント核特徴の分析とモデル化 カーナビゲーションシステムで大語彙を扱う地名入力タスクを想定して、そのユーザ発話の音声を用いたキーワードレベルでのアクセント特徴の分析やモデル化を行った。特に、「○○県」や「××インター」などキーワード末の接尾語に依存して決まるアクセント核の特徴に注目して、その特徴を人間がどの程度聴覚的に安定して知覚できるか、また統計的なモデル化によってどの程度アクセント核の存在を検証できるかを調査した。特に評価用データとしては、文法を用いる音声認識システムでは扱いにくい多様な文末表現や未知語を一部含むデータを用いた。評価実験として、発話音声に対して得られるキーワードスポッティングの仮説に対して、韻律特徴のアクセントモデルによってアクセント核数(キーワード数)の識別を試みたところ、音響的特徴(キーワードスポッティング)のみによる検証の精度と比べて顕著に検証精度が改善されることが分かった。 2.話し言葉音声の認識誤りにおける潜在的な要因の分析 話し言葉特有の特徴を多く含む講演音声コーパスを使用し、従来の研究で分析されている音声認識システムの誤り要因(探索誤りや音響・言語モデルの要因など)を、認識単位の特徴との関連から分析を行うことを試みた。具体的には、形態素単位に注目し、その発話音声と形態素との相互情報量の観点から分析を行った。モーラ単位の音響モデルから推定される形態素単位の発話音声と形態素との相互情報量を分析した結果、形態素のモーラ数とは独立に、形態素の誤り易さとの相関関係が強く示された。また、探索誤りや言語モデルによる誤り要因と、その他の誤り要因との違いが大まかに分類される特徴であることが分かった。
|