2020 Fiscal Year Research-status Report

スムーズな対話のための対話テンポのリアルタイム制御に基づく音声対話システム

Research Project

Project/Area Number	19K04311
Research Institution	The University of Tokushima
Principal Investigator	西村良太徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (50635878)
Co-Investigator(Kenkyū-buntansha)	山本一公中部大学, 工学部, 准教授 (40324230) 西崎博光山梨大学, 大学院総合研究部, 准教授 (40362082)
Project Period (FY)	2019-04-01 – 2022-03-31
Keywords	音声対話システム / タイミング / テンポ / 音声言語情報処理 / 深層学習 / 音声認識
Outline of Annual Research Achievements	本研究では，音声対話システムを自然にストレス無く利用するために必要な要素は何であるかを明らかにするために，テンポを制御するモデルを研究し，対話のテンポをリアルタイムで制御可能な音声対話システムの設計・開発を行う．このために，音声対話システム内部の各モジュールに対して，最新の機械学習手法である深層学習モデルを適用し，頑健で柔軟性のあるモデルの構築を行うとともに，テンポ制御可能なリアルタイム性の高い音声対話システムを構築する．本年度における研究では，昨年度に検討した基盤技術や開発したソフトウェアを利用し，ベースとなる音声対話システムの開発を行った．テンポ制御が可能な音声対話システムを用意するためには，システム全体の高精度化が必要であり，このために音声対話に必要な各要素（音声認識，言語理解，対話管理，応答生成，音声合成）とタイミング制御に深く関わる音響分析，韻律制御の機構を含む，リアルタイム制御が可能な音声対話システムの開発を進めた．音声対話システムは，Pythonにより実装されており，各モジュールが独立に動作が可能である．また，モジュール間の通信にはROSのプロトコルを採用しており，これによりリアルタイム性や連携性を高くしている．さらに，ROSを利用した既存のロボットなどへの導入も容易に行うことが可能である．また，このシステムは，すでにPyPI（Python Package Index）にて公開済みであり，研究成果の公開も行っている．これらの成果から，テンポ制御可能なリアルタイム性の高い音声対話システムを構築する環境が整いつつあり，来年度以降，研究を進めていく．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 当初の計画において，本年度の研究では，音声対話システムの会話のテンポ制御のモデルの構築を主に行う予定であったが，来年度に完成させる．逆に，今年度から来年度に構築予定であった．音声対話システムについては，完成しており，簡易的に実装したタイミング制御部も合わせて，リアルタイムに割り込み発話などをおこなうことが実現できており，研究・開発が進んでいる．これまでの進捗という点では，本研究課題全体の進捗状況として見た場合には，概ね順調に進展しているといえる．なお，本年度に進めた研究について，具体的には，音声合成器については，深層学習を用いた最新の方式を用いたモデルを構築し，リアルタイムに音声認識を行うことが可能となり，生成の速度向上の他，アクセントの制御やポーズの制御も可能となっている．また，このシステムをpythonから簡単に利用するための環境も開発したことにより，これ以降のシステム開発が円滑に行われることが期待される．
Strategy for Future Research Activity	来年度は，音声対話システムのテンポ制御モデルについての研究を行い，テンポ制御モデルをモジュールとして構築し，音声対話システムに組み込める形にする．また，今年度開発を行ったリアルタイム音声対話システムにテンポ制御モデルを統合する．本年度は，ROSをベースとした音声対話システムの構築が完了したので，これを用いて，タイミングを制御しつつ自然に対話を進めることが可能なシステムを実現する．このために，システム全体の動作を分析・調整していき，課題のあぶり出しと，解決を図っていく．本年度の研究を受けて，来年度の研究計画も順調に遂行が可能であると思われるが，課題があるとすれば，モジュール統合後のシステム全体としての動作の頑健性の低下が考えられる．音声対話システムとして，テンポ制御の効果をはかるためには，システム自体の動作（音声認識や応答生成の精度）が頑健である必要があるが，これが難しい場合には，対話できる話題を限定するなどの対応をとる．
Causes of Carryover	次年度使用額が生じた理由は，コロナ禍による被験者実験が不可能であったこと，出張が不可能であったことが挙げられる．使用計画としては，音声対話システムを統合して動作指せる環境の構築用機材の購入と，被験者実験を予定している．

Research Products
(4 results)

All 2021 2020

All Journal Article (2 results) (of which Peer Reviewed: 2 results, Open Access: 1 results) Presentation (2 results) (of which Int'l Joint Research: 1 results)

[Journal Article] Example Phrase Adaptation Method for Customized, Example-Based Dialog System Using User Data and Distributed Word Representations2020
- Author(s)
  KITAOKA Norihide、SETO Eichi、NISHIMURA Ryota
- Journal Title
  
  IEICE Transactions on Information and Systems
  
  Volume: E103.D Pages: 2332～2339
- DOI
  10.1587/transinf.2020EDP7066
- Peer Reviewed
[Journal Article] End-to-end recognition of streaming Japanese speech using CTC and local attention2020
- Author(s)
  Chen Jiahao、Nishimura Ryota、Kitaoka Norihide
- Journal Title
  
  APSIPA Transactions on Signal and Information Processing
  
  Volume: 9 Pages: 1～7
- DOI
  10.1017/ATSIP.2020.23
- Peer Reviewed / Open Access
[Presentation] アクセント句を考慮した日本語End-to-End音声合成サーバの構築2021
- Author(s)
  太田健吾、西村良太、北岡教英
- Organizer
  日本音響学会講論集（2021年春）
[Presentation] E2E Streaming Speech Recognition Using CTC and Local Attention2020
- Author(s)
  Chen Jiahao、Nishimura Ryota、Kitaoka Norihide
- Organizer
  Nonlinear Circuits, Communications and Signal Processing 2020 (NCSP'20)
- Int'l Joint Research

2020 Fiscal Year Research-status Report

スムーズな対話のための対話テンポのリアルタイム制御に基づく音声対話システム

Principal Investigator

西村 良太 徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (50635878)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Example Phrase Adaptation Method for Customized, Example-Based Dialog System Using User Data and Distributed Word Representations2020

Author(s)

Journal Title

DOI

[Journal Article] End-to-end recognition of streaming Japanese speech using CTC and local attention2020

Author(s)

Journal Title

DOI

[Presentation] アクセント句を考慮した日本語End-to-End音声合成サーバの構築2021

Author(s)

Organizer

[Presentation] E2E Streaming Speech Recognition Using CTC and Local Attention2020

Author(s)

Organizer

西村良太徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (50635878)