研究概要 |
本年度は、マルチモーダル対話インタフェースに関して以下のことを行った. 1.対話機能における認識誤り修正のための言い直し発話検出 音声対話では,状況の情報を制約として認識や対話制御に導入することが,音声認識においては性能向上に,対話理解・制御においては曖昧さ・誤解の認識と解消につながる.例えば,ユーザがシステムの誤認識に対して行う「言い直し」を検出することは認識・対話に有効であると考えられる.これまでに大語彙孤立単語認識を用いた地名入力タスクにおける言い直し検出法を提案し,認識性能改善に効果があることを示した.本報告書ではより一般的な対話における言い直しの検出に拡張することを試みた.ダイナミックプログラミングによる直前発話と現発話の対応付けおよび音声認識を行った結果に含まれる単語の重なり度合いを用いることによって,再現率94.8%、適合率89.2%で言い直しか否かを判定できた. 2.対話における応答タイミング生成 音声対話で自然さをつかさどる要素として、ユーザ発話に対して適切なタイミングで応答を返せることがある。リアルタイムに応答を返すために、韻律的情報および表層的言語情報を素性とした決定木を適用して相槌・発話権取得タイミングを生成する手法を考案し、実際の対話音声でタイミング生成させたものを主観評価した結果、人間と同等の自然さでタイミング生成できることを示した。 2.任意文字列の音声認識の研究 フォーム入力型のWebページで必要な連続音節の認識の高精度化を、特に氏名入力をタスクに行った.言語的な先見的知識を確率的に表現する言語モデルを氏名タスクに特化することで効果を得た。またその結果を音節ごとの候補リストとしてペンで選択して確定する手法を実装し、さらに効率的な入力であることを示した。
|