研究概要 |
本研究では,実環境での頑健なロボット音声対話インタフェースの実現を目指して,音声認識結果として得られる発話内容以外に,発話タイミングや発話間の沈黙などの発語行為レベルの情報を併用して発話を解釈する枠組みを実現する.平成21年度は下記2点に取り組んだ. (1) バージイン可能なシステムの構築とデータ収集: 実環境でのシステム発話に対するユーザの割り込み(バージイン)を可能とするために,独立成分分析(Independent Component Analysis;ICA)に基づく音源分離手法を利用し,これを入力として利用する音声対話システムを構築した.これを用いて,システムが選択肢を列挙し,ユーザがその中から一つを選択するというタスクを行う音声対話システムを構築した.タスクは,ニュースの読み上げとクイズの2種類であり,それぞれ20名から400発話と,300名から1184発話を収集した.このデータは,本研究課題における分析や評価に不可欠である.また2つの異なるタスクでデータを収集していることから,タスクに非依存な現象などの議論も行える. (2) 選択肢の列挙に対するユーザの発語タイミングの分析とモデル化: 発話タイミングと音声認識結果の両方を用いてユーザの意図を解釈する方法を開発した.具体的にはシステムが列挙する選択肢をユーザが指定する際に,指示内容と発話タイミングの両方を確率で表現して統合し,ユーザの指示内容を同定できる.これによりユーザの指示対象の同定精度が向上することを,ニュース読み上げタスクの20名400発話を用いた評価実験により示した.
|