2019 Fiscal Year Research-status Report

スムーズな対話のための対話テンポのリアルタイム制御に基づく音声対話システム

Research Project

Project/Area Number	19K04311
Research Institution	The University of Tokushima
Principal Investigator	西村良太徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (50635878)
Co-Investigator(Kenkyū-buntansha)	山本一公中部大学, 工学部, 准教授 (40324230) 西崎博光山梨大学, 大学院総合研究部, 准教授 (40362082)
Project Period (FY)	2019-04-01 – 2022-03-31
Keywords	音声対話システム / タイミング / テンポ / 音声言語情報処理 / 深層学習 / 音声認識
Outline of Annual Research Achievements	本研究では，音声対話システムを自然にストレス無く利用するために必要な要素は何であるかを明らかにするために，テンポを制御するモデルを研究し，対話のテンポをリアルタイムで制御可能な音声対話システムの設計・開発を行う．このために，音声対話システム内部の各モジュールに対して，最新の機械学習手法である深層学習モデルを適用し，頑健で柔軟性のあるモデルの構築を行うとともに，テンポ制御可能なリアルタイム性の高い音声対話システムを構築する．本年度における研究では，「スムーズな音声対話に必要な要素は何か」を解明するべく，研究を行うための基盤となる技術の検討．環境・データ整備，ソフトウェアの開発を行った．テンポ制御が可能な音声対話システムを用意するためには，システム全体の高精度化が必要であり，このために必要な音声対話システム内部の各モジュールについて開発を進めた．音声認識器については，深層学習を用いた最新の方式を用いたモデルを構築し，リアルタイムに音声認識を行うことが可能となり，認識の速度向上の他，発話途中での認識結果も逐次的に利用可能となっている．また，このシステムをpythonから簡単に利用するための環境も開発したことにより，これ以降のシステム開発が円滑に行われることが期待される．音声対話システムの応答生成の部分においても，深層学習モデルを用いた生成手法を導入した．ユーザからの入力は話し言葉であるが，そのままでは各種処理がうまく適用できない．そこで，話し言葉から書き言葉に変換することで，自然言語処理がより頑健に適用できるようになる．このための返還モデルの構築を行い，また，この結果を受けて，日本国有の現象である「ゼロ代名詞」の補完を行うモデルを構築した．これらの成果から，テンポ制御可能なリアルタイム性の高い音声対話システムを構築する環境が整いつつあり，来年度以降，研究を進めていく．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 当初の計画において，本年度の研究では，音声対話システムの会話のテンポ制御のモデルの構築を主に行う予定であったが，来年度以降に着手予定であった，音声認識，応答生成，各モジュールの統合について，研究・開発が進んでいる．また，当初計画のテンポ制御についても，来年度に研究・開発を進められる目処がたっており，これらの点で，本研究課題全体の進捗状況として見た場合には，概ね順調に進展しているといえる．なお，本年度に進めた研究について，具体的には，音声認識器については，深層学習を用いた最新の方式を用いたモデルを構築し，リアルタイムに音声認識を行うことが可能となり，認識の速度向上の他，発話途中での認識結果も逐次的に利用可能となっている．また，このシステムをpythonから簡単に利用するための環境も開発したことにより，これ以降のシステム開発が円滑に行われることが期待される．音声対話システムの応答生成の部分においても，深層学習モデルを用いた生成手法を導入した．ユーザからの入力は話し言葉であるが，そのままでは各種処理がうまく適用できない．そこで，話し言葉から書き言葉に変換することで，自然言語処理がより頑健に適用できるようになる．このための返還モデルの構築を行い，また，この結果を受けて，日本国有の現象である「ゼロ代名詞」の補完を行うモデルを構築した．
Strategy for Future Research Activity	来年度は，音声対話システムのテンポ制御モデルについての研究を行い，テンポ制御モデルをモジュールとして構築し，音声対話システムに組み込める形にする．また，今年度開発を行ったリアルタイム音声認識，応答生成，のモジュールを，テンポ制御モデルと統合する．リアルタイム音声対話システムの開発は，リアルタイムではない（一問一答形式のような）音声対話システムとは，設計思想・設計方式が根本から異なるため，慎重に設計．開発を行う必要があるが，ROS（RobotOS）をベースとしたプロトコル上で音声対話システムを実装する手法を検討中である．本年度の研究を受けて，来年度の研究計画も順調に遂行が可能であると思われるが，課題があるとすれば，モジュール統合後のシステム全体としての動作の頑健性の低下が考えられる．音声対話システムとして，テンポ制御の効果をはかるためには，システム自体の動作（音声認識や応答生成の精度）が頑健である必要があるが，これが難しい場合には，対話できる話題を限定するなどの対応をとる．
Causes of Carryover	当該助成金が生じた理由は，本年度購入予定であったマイク，スピーカ等を購入しなかったためである．使用計画としては，本年度購入しなかった少額の物品（マイク，スピーカなど）を購入し，音声対話システム実験を行いながら開発ができる環境を整える．