2022 Fiscal Year Annual Research Report
スムーズな対話のための対話テンポのリアルタイム制御に基づく音声対話システム
Project/Area Number |
19K04311
|
Research Institution | The University of Tokushima |
Principal Investigator |
西村 良太 徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (50635878)
|
Co-Investigator(Kenkyū-buntansha) |
山本 一公 中部大学, 工学部, 教授 (40324230)
西崎 博光 山梨大学, 大学院総合研究部, 教授 (40362082)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 音声対話システム / タイミング / テンポ / 音声言語情報処理 / 深層学習 / 音声認識 |
Outline of Annual Research Achievements |
本研究では,音声対話システムを自然にストレス無く利用するために必要な要素は何であるかを明らかにするために,テンポを制御するモデルを研究し,対話のテンポをリアルタイムで制御可能な音声対話システムの設計・開発を行う.このために,音声対話システム内部の各モジュールに対して,最新の機械学習手法である深層学習モデルを適用し,頑健で柔軟性のあるモデルの構築を行うとともに,テンポ制御可能なリアルタイム性の高い音声対話システムを構築する. 本年度における研究では,昨年度までに構築したベース音声対話システムに組み込む各種モジュールの高精度化を行うとともに,応答制御/話者交替タイミング生成モデルの構築を行った.本モデルにおいては,入力として低次の音響情報であるスペクトログラムと,韻律情報を用いており,深層学習モデルにより話者交替のタイミングを逐次的に図っている.モデルは,LSTM層と全結合層にて構成されている。このモデルにより,無音が200ms検出された時点で話者交替のタイミングであるかどうかを判定できるため,発話終了時の判定処理が既存モデルよりも早いタイミングで開始できる.人同士の自然な対話では,応答タイミングは500ms前後で分布しており,既存モデルのように500ms以上や1000ms以上判定開始にかかるモデルでは,本研究での利用は望めない.このことから,提案モデルにより,より自然な応答タイミングでの応答制御が可能となった. これらをシステムに組み入れ,リアルタイム制御・動作可能な分散型音声対話システムを構築した.
|
Research Products
(14 results)
-
-
-
-
-
-
-
-
[Presentation] EMOtive A.I. "Saya"2022
Author(s)
大須賀晋, 田中五大, 鍋倉彩那, 中野涼太, 渡邊凌太, 石川友香, 石川晃之, 中村晃一, 藤井裕也, 堀内颯太, 東中竜一郎, 西村良太, 太田健吾, 北岡教英
Organizer
人工知能学会研究会資料 言語・音声理解と対話処理研究会
-
-
-
-
-
-