(1)音声処理・言語理解・対話処理のための大量音声コーパスの作成と分析 本タスクに関する様々な状況の自然な音声対話を大量に収集し、対話相手や心理的負荷、認識・言語理解精度によって、ユーザ発話の言語的・音響的特徴がどのように変化するか分析し、様々な知見を得た。また、同コーパスを用いて、対話リズムの発話タイミングと同調作用(話速、ピッチなど)に関する分析を行い、本研究に必要な知見を獲得した。 (2)音声認識部の改良と韻律抽出部の開発 音声認識部は豊橋技術科学大学の中川研究室で開発されたSPOJUSを利用し、リアルタイム性を高めるための軽量化、高速化を行い、小規模な文法においてはほぼリアルタイムでの認識ができるようになった。また、対話のリズムを重視した対話を実現するためにポーズ単位での認識ができるように改良し、動作確認を行った。 さらに、韻律的特徴のピッチ、パワーをリアルタイムに抽出できる韻律特徴抽出部も開発した。 (3)対話リズム発生器の開発 音声認識部の認識途中結果、韻律特徴抽出部のパワー、ピッチなどの音響的特徴、ユーザの発話時間、発話間・発話内ポーズ長などの時間情報を利用し、システムの発話タイミング、話者交代タイミング、システムの発話速度などを決定する対話リズム発生器を開発した。 (4)意図理解システムの開発 対話のリズムを重視するために必要なポーズ単位の音声言語理解システムを開発した。これは、自立語、動詞などのキーワードと助詞などの付属語のそれぞれの音声認識信頼度と、対話履歴を利用し、ユーザの発話する可能性がある発話意図ごとに意図スコアを計算し、最も高いスコアの発話意図がユーザの発話した意図であると仮定する音声言語理解システムである。意図スコアの値は確信度として利用でき、ユーザ満足度の高い対話制御を行うために利用される。
|