2022 Fiscal Year Annual Research Report

スムーズな対話のための対話テンポのリアルタイム制御に基づく音声対話システム

Research Project

Project/Area Number	19K04311
Research Institution	The University of Tokushima
Principal Investigator	西村良太徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (50635878)
Co-Investigator(Kenkyū-buntansha)	山本一公中部大学, 工学部, 教授 (40324230) 西崎博光山梨大学, 大学院総合研究部, 教授 (40362082)
Project Period (FY)	2019-04-01 – 2023-03-31
Keywords	音声対話システム / タイミング / テンポ / 音声言語情報処理 / 深層学習 / 音声認識
Outline of Annual Research Achievements	本研究では，音声対話システムを自然にストレス無く利用するために必要な要素は何であるかを明らかにするために，テンポを制御するモデルを研究し，対話のテンポをリアルタイムで制御可能な音声対話システムの設計・開発を行う．このために，音声対話システム内部の各モジュールに対して，最新の機械学習手法である深層学習モデルを適用し，頑健で柔軟性のあるモデルの構築を行うとともに，テンポ制御可能なリアルタイム性の高い音声対話システムを構築する．本年度における研究では，昨年度までに構築したベース音声対話システムに組み込む各種モジュールの高精度化を行うとともに，応答制御/話者交替タイミング生成モデルの構築を行った．本モデルにおいては，入力として低次の音響情報であるスペクトログラムと，韻律情報を用いており，深層学習モデルにより話者交替のタイミングを逐次的に図っている．モデルは，LSTM層と全結合層にて構成されている。このモデルにより，無音が200ms検出された時点で話者交替のタイミングであるかどうかを判定できるため，発話終了時の判定処理が既存モデルよりも早いタイミングで開始できる．人同士の自然な対話では，応答タイミングは500ms前後で分布しており，既存モデルのように500ms以上や1000ms以上判定開始にかかるモデルでは，本研究での利用は望めない．このことから，提案モデルにより，より自然な応答タイミングでの応答制御が可能となった．これらをシステムに組み入れ，リアルタイム制御・動作可能な分散型音声対話システムを構築した．

Research Products

(14 results)

All 2023 2022 Other

All Journal Article (3 results) (of which Peer Reviewed: 2 results, Open Access: 3 results) Presentation (10 results) (of which Int'l Joint Research: 1 results) Remarks (1 results)

[Journal Article] A new speech corpus of super-elderly Japanese for acoustic modeling2023
- Author(s)
  Fukuda Meiko、Nishimura Ryota、Nishizaki Hiromitsu、Horii Koharu、Iribe Yurie、Yamamoto Kazumasa、Kitaoka Norihide
- Journal Title
  
  Computer Speech & Language
  
  Volume: 77 Pages: 101424～101424
- DOI
  10.1016/j.csl.2022.101424
- Peer Reviewed / Open Access
[Journal Article] Input Utterance Complementation Method by Anaphora Resolution for Spontaneous Utterances on Spoken Dialog Systems2022
- Author(s)
  Nishimura Ryota、Mori Raita、Ohta Kengo、Kitaoka Norihide
- Journal Title
  
  Transactions of the Japanese Society for Artificial Intelligence
  
  Volume: 37 Pages: IDS～F_1-13
- DOI
  10.1527/tjsai.37-3_IDS-F
- Peer Reviewed / Open Access
[Journal Article] フォトリアルCGエージェントとのマルチモーダル対話2022
- Author(s)
  北岡教英、西村良太、太田健吾
- Journal Title
  
  日本音響学会誌
  
  Volume: 78 Pages: 257～264
- DOI
  10.20697/jasj.78.5_257
- Open Access
[Presentation] 割り込み発話にも対応可能なリアルタイム話者交替システム2023
- Author(s)
  杉山雅和, 太田健吾, 西村良太, 北岡教英
- Organizer
  日本音響学会講論集（2023春）（Web会議）
[Presentation] 深層学習による口唇情報を用いた雑音下での音声認識精度の改善2023
- Author(s)
  伊達龍斗, 太田健吾, 西村良太, 北岡教英
- Organizer
  日本音響学会講論集（2023春）（Web会議）
[Presentation] 自発的発話認識のためのBERTによる非流暢文生成に基づく言語モデリング2023
- Author(s)
  堀井こはる, 太田健吾, 西村良太, 小川厚徳, 北岡教英
- Organizer
  日本音響学会講論集（2023春）（Web会議）
[Presentation] A Corpus-based Analysis of Age-related Changes in the Acoustic Features of Elderly to Super Elderly Speech2022
- Author(s)
  Fukuda, M., Sugiyama, M., Nishimura, R., Kitaoka, N
- Organizer
  The O-COCOSDA 2022
- Int'l Joint Research
[Presentation] EMOtive A.I. "Saya"2022
- Author(s)
  大須賀晋, 田中五大, 鍋倉彩那, 中野涼太, 渡邊凌太, 石川友香, 石川晃之, 中村晃一, 藤井裕也, 堀内颯太, 東中竜一郎, 西村良太, 太田健吾, 北岡教英
- Organizer
  人工知能学会研究会資料言語・音声理解と対話処理研究会
[Presentation] BERT による雑談対話話題拡張2022
- Author(s)
  福村考洋, 西村良太, 北岡教英
- Organizer
  令和4年度電気・電子・情報関係学会四国支部連合大会講演論文集（Web会議）
[Presentation] 音声対話システムにおける対話破綻検出器の構築2022
- Author(s)
  鳥井章宏, 西村良太, 北岡教英
- Organizer
  令和4年度電気・電子・情報関係学会四国支部連合大会講演論文集（Web会議）
[Presentation] 超高齢者コーパスとS-JNAS を用いた高齢者音声の音響的特徴の分析2022
- Author(s)
  福田芽衣子, 杉山雅和, 西村良太, 入部百合絵, 山本一公, 北岡教英
- Organizer
  日本音響学会講論集（2022年秋）（Web会議）
[Presentation] ドメイン外音響情報で補強した Encoder-Decoder 音声認識モデルの設計2022
- Author(s)
  森大輝, 太田健吾, 西村良太, 北岡教英
- Organizer
  日本音響学会講論集（2022年秋）（Web会議）
[Presentation] End-to-End 非流暢整形音声認識システムの対話音声による評価2022
- Author(s)
  堀井こはる, 福田芽衣子, 太田健吾, 西村良太, 小川厚徳, 北岡教英
- Organizer
  日本音響学会講論集（2022年秋）（Web会議）
[Remarks] DiaROS
- URL
  https://github.com/kitaoka-lab/DiaROS

2022 Fiscal Year Annual Research Report

スムーズな対話のための対話テンポのリアルタイム制御に基づく音声対話システム

Principal Investigator

西村 良太 徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (50635878)

Research Products

[Journal Article] A new speech corpus of super-elderly Japanese for acoustic modeling2023

Author(s)

Journal Title

DOI

[Journal Article] Input Utterance Complementation Method by Anaphora Resolution for Spontaneous Utterances on Spoken Dialog Systems2022

Author(s)

Journal Title

DOI

[Journal Article] フォトリアルCGエージェントとのマルチモーダル対話2022

Author(s)

Journal Title

DOI

[Presentation] 割り込み発話にも対応可能なリアルタイム話者交替システム2023

Author(s)

Organizer

[Presentation] 深層学習による口唇情報を用いた雑音下での音声認識精度の改善2023

Author(s)

Organizer

[Presentation] 自発的発話認識のためのBERTによる非流暢文生成に基づく言語モデリング2023

Author(s)

Organizer

[Presentation] A Corpus-based Analysis of Age-related Changes in the Acoustic Features of Elderly to Super Elderly Speech2022

Author(s)

Organizer

[Presentation] EMOtive A.I. "Saya"2022

Author(s)

Organizer

[Presentation] BERT による雑談対話話題拡張2022

Author(s)

Organizer

[Presentation] 音声対話システムにおける対話破綻検出器の構築2022

Author(s)

Organizer

[Presentation] 超高齢者コーパスとS-JNAS を用いた高齢者音声の音響的特徴の分析2022

Author(s)

Organizer

[Presentation] ドメイン外音響情報で補強した Encoder-Decoder 音声認識モデルの設計2022

Author(s)

Organizer

[Presentation] End-to-End 非流暢整形音声認識システムの対話音声による評価2022

Author(s)

Organizer

[Remarks] DiaROS

URL

西村良太徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (50635878)