2010 Fiscal Year Annual Research Report
ユーザの発語行為解釈に基づくロボット音声対話インタフェース
Publicly Offered Research
Project Area | Cyber Infrastructure for the Information-explosion Era |
Project/Area Number |
21013029
|
Research Institution | Nagoya University |
Principal Investigator |
駒谷 和範 名古屋大学, 工学研究科, 准教授 (40362579)
|
Keywords | 音声対話システム / 音声認識 / ロボット対話 / バージイン / 発話タイミング / 発語行為 / 音源分離 / 独立成分分析 |
Research Abstract |
実環境下での頑健なロボット音声対話の実現を目指して,発話行為レベルの情報に着目して解釈を行う音声対話システムを構築した.つまり,音声認識結果として得られる発話内容以外に,発話タイミングや発話間の沈黙を併用してユーザの発話を解釈する.これにより,周辺雑音の多い状況でも頑健にユーザの意図を推定可能なロボット音声対話の実現を目指す.本年度は具体的には下記2点に取り組んだ. (1)ユーザや列挙項目に応じた最適な解釈重みの決定 音声認識結果と発話タイミングから得られる確率を足し合わせる際の重みを,ユーザや列挙内容に応じて変化させることで,指示対象の同定精度を向上させた.これは,内容語を用いた発話を好むユーザと,タイミングによる対象指示を好むユーザが存在するという分析結果に基づいており,それぞれに応じて事前情報を与えることに相当する. (2)対話状況に応じた列挙型対話への切り替え レストラン検索を行う音声対話システムに,タイミングを用いた解釈法を実装した.この際に,音源分離部の信号雑音比や同一発話の繰り返し回数などを用いて,対話の進行が困難な状況を検出する.これにより,正しい認識結果を得るのが難しい場合はタイミングを用いた対話に誘導し,音声認識結果が信頼できそうな場合にはそれを用いて解釈を行うといった適応的な対話を実現した.この手法について,高い音声認識性能を得るのが困難な環境下で評価実験を行い,タスク達成率が向上することを示した.
|