2021 Fiscal Year Research-status Report

スムーズな対話のための対話テンポのリアルタイム制御に基づく音声対話システム

Research Project

Project/Area Number	19K04311
Research Institution	The University of Tokushima
Principal Investigator	西村良太徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (50635878)
Co-Investigator(Kenkyū-buntansha)	山本一公中部大学, 工学部, 教授 (40324230) 西崎博光山梨大学, 大学院総合研究部, 准教授 (40362082)
Project Period (FY)	2019-04-01 – 2023-03-31
Keywords	音声対話システム / タイミング / テンポ / 音声言語情報処理 / 深層学習 / 音声認識
Outline of Annual Research Achievements	本研究では，音声対話システムを自然にストレス無く利用するために必要な要素は何であるかを明らかにするために，テンポを制御するモデルを研究し，対話のテンポをリアルタイムで制御可能な音声対話システムの設計・開発を行う．このために，音声対話システム内部の各モジュールに対して，最新の機械学習手法である深層学習モデルを適用し，頑健で柔軟性のあるモデルの構築を行うとともに，テンポ制御可能なリアルタイム性の高い音声対話システムを構築する．本年度における研究では，昨年度までに構築したベース音声対話システムに組み込む各種モジュールの高精度化を行った．音声認識用の深層学習モデルにおいて，音響情報と言語情報とを明確に区別させ，音声コーパスから学習した深層学習音響モデルに暗に含まれてしまう言語情報を除去することで，他の学習済み言語モデルなどをより高精度に用いることができる仕組みを考案した．また，後段の言語処理に影響する余分な発話（「えー」などのフィラーや，言いよどみなど）を認識時に明示的に認識し，最終的なテキスト出力時にはこれらを削除・整形する仕組みを組み入れた音声認識器の開発を行った．これらをシステムに組み入れていく予定であるが，コロナ禍の影響もあり，システムの構築，各種実験が遅れており，最終的なシステム構築，被験者実験などは行なえていない．そこで，研究を１年延長し，来年度に残ったタスクであるシステム統合，被験者実験を行う．
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 当初の計画通りに，音声認識器・モデルの構築とリアルタイム動作対応，リアルタイム動作可能な音声対話システム構築を完了している．しかし，音声対話システムの会話のテンポ制御のモデルの構築は，当初計画よりも遅れており，来年度に最終調整を行う．これまでの進捗という点では，本研究課題全体の進捗状況として見た場合には，最終的なシステム統合と，そのシステムの評価ができておらず，遅れが生じており，研究が完了していないため，延長申請を行い，来年度に完了させる．なお，本年度に進めた研究について，具体的には，音声認識器については，深層学習を用いた最新の方式を用いたモデルを構築し，リアルタイムに音声認識を行うことが可能となり，高度な音声認識が可能であり，更に学習済みモデルとの高精度な連携が可能であり，さらに，フィラーや言いよどみを自動で除去することも可能となっている．
Strategy for Future Research Activity	来年度は，音声対話システムのテンポ制御モデルについての最終調整を行い，これを組み込んだテンポ制御モデルを，音声対話システムに組み込む．本年度は，本研究で構築したROSベースのリアルタイム音声対話システムを用いて，タイミングを制御しつつ自然に対話を進めることが可能なシステムを実現する．このために，システム全体の動作を分析・調整していき，課題のあぶり出しと，解決を図っていく．本年度の研究を受けて，来年度には残りの研究課題を完了可能であると思われるが，課題があるとすれば，モジュール統合後のシステム全体としての動作の頑健性の低下が考えられる．音声対話システムとして，テンポ制御の効果をはかるためには，システム自体の動作（音声認識や応答生成の精度）が頑健である必要があるが，これが難しい場合には，対話できる話題を限定するなどの対応をとる．
Causes of Carryover	当該助成金が生じた理由は，コロナ禍による被験者実験が不可能であったこと，出張が不可能であったことが挙げられる．使用計画としては，音声対話システムを統合して動作させる環境の構築用機材の購入と，被験者実験を予定している．

Research Products
(6 results)

All 2021

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (5 results) (of which Int'l Joint Research: 2 results)

[Journal Article] Response type selection for chat-like spoken dialog systems based on LSTM and multi-task learning2021
- Author(s)
  Ohta Kengo、Nishimura Ryota、Kitaoka Norihide
- Journal Title
  
  Speech Communication
  
  Volume: 133 Pages: 23～30
- DOI
  10.1016/j.specom.2021.07.003
- Peer Reviewed / Open Access
[Presentation] Advanced language model fusion method for encoder-decoder model in Japanese speech recognition2021
- Author(s)
  Mori Daiki、Ohta Kengo、Ryota Nishimura、Ogawa Atsunori、Norihide Kitaoka
- Organizer
  APSIPA Annual Summit and Conference 2021
- Int'l Joint Research
[Presentation] End-to-End Spontaneous Speech Recognition Using Hesitation Labeling2021
- Author(s)
  Horii Koharu、Meiko Fukuda、Ohta Kengo、Ryota Nishimura、Ogawa Atsunori、Norihide Kitaoka
- Organizer
  APSIPA Annual Summit and Conference 2021
- Int'l Joint Research
[Presentation] ROSを利用したリアルタイム制御が可能な音声対話システムの構築2021
- Author(s)
  西村良太、森貴大、北岡教英
- Organizer
  日本音響学会研究発表会講演論文集
[Presentation] タスク外音響情報を付加した End-to-End 音声認識モデルの設計2021
- Author(s)
  森大輝、太田健吾、西村良太、小川厚徳、北岡教英
- Organizer
  日本音響学会講演論文集
[Presentation] 非流暢ラベルを用いた言い淀み整形End-to-End音声認識2021
- Author(s)
  堀井こはる、福田芽衣子、太田健吾、西村良太、小川厚徳、北岡教英
- Organizer
  日本音響学会講演論文集

2021 Fiscal Year Research-status Report

スムーズな対話のための対話テンポのリアルタイム制御に基づく音声対話システム

Principal Investigator

西村 良太 徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (50635878)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Response type selection for chat-like spoken dialog systems based on LSTM and multi-task learning2021

Author(s)

Journal Title

DOI

[Presentation] Advanced language model fusion method for encoder-decoder model in Japanese speech recognition2021

Author(s)

Organizer

[Presentation] End-to-End Spontaneous Speech Recognition Using Hesitation Labeling2021

Author(s)

Organizer

[Presentation] ROSを利用したリアルタイム制御が可能な音声対話システムの構築2021

Author(s)

Organizer

[Presentation] タスク外音響情報を付加した End-to-End 音声認識モデルの設計2021

Author(s)

Organizer

[Presentation] 非流暢ラベルを用いた言い淀み整形End-to-End音声認識2021

Author(s)

Organizer

西村良太徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (50635878)