研究課題
本研究では,音声対話システムを自然にストレス無く利用するために必要な要素は何であるかを明らかにするために,テンポを制御するモデルを研究し,対話のテンポをリアルタイムで制御可能な音声対話システムの設計・開発を行う.このために,音声対話システム内部の各モジュールに対して,最新の機械学習手法である深層学習モデルを適用し,頑健で柔軟性のあるモデルの構築を行うとともに,テンポ制御可能なリアルタイム性の高い音声対話システムを構築する.本年度における研究では,昨年度までに構築したベース音声対話システムに組み込む各種モジュールの高精度化を行うとともに,応答制御/話者交替タイミング生成モデルの構築を行った.本モデルにおいては,入力として低次の音響情報であるスペクトログラムと,韻律情報を用いており,深層学習モデルにより話者交替のタイミングを逐次的に図っている.モデルは,LSTM層と全結合層にて構成されている。このモデルにより,無音が200ms検出された時点で話者交替のタイミングであるかどうかを判定できるため,発話終了時の判定処理が既存モデルよりも早いタイミングで開始できる.人同士の自然な対話では,応答タイミングは500ms前後で分布しており,既存モデルのように500ms以上や1000ms以上判定開始にかかるモデルでは,本研究での利用は望めない.このことから,提案モデルにより,より自然な応答タイミングでの応答制御が可能となった.これらをシステムに組み入れ,リアルタイム制御・動作可能な分散型音声対話システムを構築した.
すべて 2023 2022 その他
すべて 雑誌論文 (3件) (うち査読あり 2件、 オープンアクセス 3件) 学会発表 (10件) (うち国際学会 1件) 備考 (1件)
Computer Speech & Language
巻: 77 ページ: 101424~101424
10.1016/j.csl.2022.101424
Transactions of the Japanese Society for Artificial Intelligence
巻: 37 ページ: IDS~F_1-13
10.1527/tjsai.37-3_IDS-F
日本音響学会誌
巻: 78 ページ: 257~264
10.20697/jasj.78.5_257
https://github.com/kitaoka-lab/DiaROS