2004 年度実績報告書

音声・言語現象の個人性モデルに基づく対話音声理解システムの開発

研究課題

研究課題/領域番号	14780272
研究機関	静岡大学
研究代表者	甲斐充彦静岡大学, 工学部, 助教授 (60283496)
キーワード	音声認識 / 対話音声 / 訂正発話 / 韻律特徴 / 発話様式 / 個人性
研究概要	本年度は、対話音声において音響韻律的な現象に注目した対話音声処理に関する研究を行い、下記の研究成果を得た。 1.対話音声の個人性の扱い前年度に引き続いて、発話様式の変動や個人性の違いによる対話音声認識性能の低下の問題に対して、繰り返しの訂正発話の検出法に焦点を当てた。本年度は新たに、音響・韻律的特徴の併用やモデル化に注目して、訂正発話の同定精度の改善を検討した。一つのアプローチとして、従来は2発話間の音響的特徴の類似性のみに注目していた繰り返し発話検出において、対数化基本周波数とその時間変化特徴を併用したパターンマッチングに基づくスポッティング法の適用を試み、従来法と比較して検出性能を4%ほど改善した。結果として80%程度の検出性能が得られた。 2.発話様式と個人性の違いの定量化音声・言語現象のモデル化において、一般的な音響的な特徴表現での音声の個人性及び発話様式の違いの影響を明らかにするため、複数回の訂正入力を想定して発話様式の異なる発話を複数名の被験者で収録した。キーワード入力タスクを設定して、普通に発話してもらう場合と、訂正のために誇張して発話する場合とで複数の発話様式で発声してもらい、同一キーワードの発話様式の違いや個人差の影響の大きさと音響特徴空間での統計的な距離尺度との関係を分析した。分析において、母音間のBhattacharyya距離に基づく音韻構造間の距離との関係を分析した結果、個人間の差異や発話様式間での差異および、標準音響モデルと各個人・各発話様式との差異において、音韻構造間の距離に基づいて定量化された指標が発話様式や認識精度の違いに対してより相関が高い指標となることが示された。