2020 Fiscal Year Annual Research Report

音声メディアを利用した情報伝達における相互行為の時間構造的特徴と伝達効率の関係

Research Project

Project/Area Number	18H04128
Research Institution	Waseda University
Principal Investigator	小林哲則早稲田大学, 理工学術院, 教授 (30162001)
Co-Investigator(Kenkyū-buntansha)	藤江真也千葉工業大学, 先進工学部, 教授 (00367062) 森大毅宇都宮大学, 工学部, 准教授 (10302184) 徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
Project Period (FY)	2018-04-01 – 2021-03-31
Keywords	会話システム / 会話のリズム / 発話タイミング推定 / 会話音声合成 / 低遅延音声認識
Outline of Annual Research Achievements	会話相互行為の時間構造のモデル化によってリズムの良い会話を実現し，会話による情報伝達の効率化に役立てることを試みた。20，21年度は，a.発話タイミングのモデル化，b.ユーザ応答の不活性化の要因調査，c.多様な表現を可能とする音声合成方式，d.低遅延音声認識方式の4点を中心に検討した。a.は，時間構造に直結するテーマ，b.はリズム形成の阻害要因調査，c.，d.はリズム形成にための主要要素技術という位置づけである。 a.については，対話行為認識を補助タスクとして組込むことの効果について検討した。音響・言語情報を用いるTransformer型のタイミング推定器に対し，対話行為推定を組み込むことで，25msF値（推定誤差が25ms以内で正解とする基準によるF値）は0.41，50msF値は0.63となり，組み込まない場合に比べそれぞれ14%，2%向上した。 b.については，会話コンテンツのリアリティ（実際の会話に出現したものか，人為的に作成したものか）の観点から整理した。会話の進行シナリオと合成音それぞれのリアリティが，ユーザ応答の活性度に有意に影響することを確認した。 c.については，センテンスコードと感情コードを用いて発話表現を自動分類しながらモデルを学習する手法を基礎として，これにDirichlet分布を用いたVariational Auto-Encoder構造，感情コードのアニーリング，Factor Analyzer構造などを導入した。受聴試験により，合成音声の品質を劣化させることなく，指定した発話表現を実現できることを確認した。 d.については，mask型Non-Autoregressive言語モデルをCTC音響モデルの学習時に併用すると，言語制約をCTC内に織り込むことができ，実行時はCTCだけでも少ない先読みで動作可能となり，低遅延で動作することを明らかにした。
Research Progress Status	令和2年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	令和2年度が最終年度であるため、記入しない。

Research Products
(46 results)

All 2022 2021 2020

All Journal Article (3 results) (of which Peer Reviewed: 2 results, Open Access: 1 results) Presentation (42 results) (of which Int'l Joint Research: 10 results) Patent(Industrial Property Rights) (1 results)

[Journal Article] 対話システムはどのように話すべきか: 実際の会話データに基づく話し言葉の合成2022
- Author(s)
  森大毅
- Journal Title
  
  日本音響学会誌
  
  Volume: 78 Pages: 283-288
[Journal Article] Comparison of machine learning algorithms and acoustic features in emotion recognition from spontaneous speech2022
- Author(s)
  Takahisa Iizuka, Hiroki Mori
- Journal Title
  
  Acoustical Science and Technology
  
  Volume: 43 Pages: -
- Peer Reviewed
[Journal Article] PeriodNet: A Non-Autoregressive Raw Waveform Generative Model With a Structure Separating Periodic and Aperiodic Components2021
- Author(s)
  Yukiya Hono, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Journal Title
  
  IEEE Access
  
  Volume: 9 Pages: 137599-137612
- DOI
  10.1109/ACCESS.2021.3118033
- Peer Reviewed / Open Access
[Presentation] 粒度の異なるサブワード単位に基づく階層的条件付きEnd-to-End音声認識2022
- Author(s)
  樋口陽祐, 軽部敬太, 小川哲司, 小林哲則
- Organizer
  日本音響学会2022年春季研究発表会
[Presentation] 声質・声の高さ・話速を変更可能なニューラルボコーダ構成法の検討2022
- Author(s)
  佐々木一匡, 吉村建慶, 高木信二, 橋本佳, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2022年春季研究発表会
[Presentation] HSMM構造化アテンションに基づく音声合成のためのメモリ削減手法2022
- Author(s)
  藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2022年春季研究発表会
[Presentation] 非周期性指標を考慮したニューラルボコーダの学習2022
- Author(s)
  法野行哉, 高木信二, 橋本佳, 中村和寛, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2022年春季研究発表会
[Presentation] Autoregressive variational autoencoder with a hidden semi-Markov model-based structured attention for speech synthesis2022
- Author(s)
  Takato Fujimoto, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda
- Organizer
  2021 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- Int'l Joint Research
[Presentation] 複数の自然対話音声コーパスの併用によるend-to-end対話音声合成の高品質化2022
- Author(s)
  西野広直，森大毅
- Organizer
  日本音響学会2022年春季研究発表会
[Presentation] An investigation of enhancing CTC model for triggered attention-based streaming ASR2021
- Author(s)
  Huaibo Zhao, Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi
- Organizer
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2021 (APSIPA2021)
- Int'l Joint Research
[Presentation] Timing Generating Networks: Neural Network Based Precise Turn-Taking Timing Prediction in Multiparty Conversation2021
- Author(s)
  Shinya Fujie, Hayato Katayama, Jin Sakuma, and Tetsunori Kobayashi
- Organizer
  Interspeech 2021
- Int'l Joint Research
[Presentation] Improved Mask-CTC for non-autoregressive end-to-end ASR2021
- Author(s)
  Yosuke Higuchi, Hirofumi Inaguma, Shinji Watanabe, Tetsuji Ogawa, Tetsunori Kobayashi
- Organizer
  2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2021)
- Int'l Joint Research
[Presentation] End-to-End音声認識のための粒度の異なるサブワード単位に基づく階層的な条件付け2021
- Author(s)
  樋口陽祐, 軽部敬太, 小川哲司, 小林哲則
- Organizer
  情報処理学会研究報告 (SLP)
[Presentation] Self-Attention を用いた多人数会話向け発話タイミング推定2021
- Author(s)
  佐久間仁, 藤江真也, 小林哲則
- Organizer
  人工知能学会第93回言語・音声理解と対話処理研究会
[Presentation] Triggered attention型ストリーミング音声認識におけるMask-CTCを用いた事前学習2021
- Author(s)
  趙懐博, 樋口陽祐, 小林哲則, 小川哲司
- Organizer
  情報処理学会研究報告 (SLP)
[Presentation] Personalized Extractive Summarization for a News Dialogue System2021
- Author(s)
  Hiroaki Takatsu, Mayu Okuda, Yoichi Matsuyama, Hiroshi Honda, Shinya Fujie, and Tetsunori Kobayashi
- Organizer
  The 8th IEEE Spoken Language Technology Workshop (SLT2021)
- Int'l Joint Research
[Presentation] Noise-robust attention learning for end-to-end speech recognition2021
- Author(s)
  Yosuke Higuchi, Naohiro Tawara, Atsunori Ogawa, Tomoharu Iwata, Tetsunori Kobayashi, Tetsuji Ogawa
- Organizer
  The 2020 28th European Signal Processing Conference (EUSIPCO2020)
- Int'l Joint Research
[Presentation] TGNN による発話期待度のモデル化に基づく発話タイミング推定2021
- Author(s)
  佐久間仁, 片山颯人, 藤江真也, 小林哲則
- Organizer
  日本音響学会2021年春季研究発表会
[Presentation] PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components2021
- Author(s)
  Yukiya Hono, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Organizer
  2021 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- Int'l Joint Research
[Presentation] 因子分析に基づくHSMMを利用した構造化アテンション音声合成2021
- Author(s)
  高木信二, 牛田光一, 橋本佳, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2021年秋季研究発表会
[Presentation] 隠れセミマルコフモデルによる構造化アテンションを用いた自己回帰型VAEに基づくsequence-to-sequence音声合成2021
- Author(s)
  藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2021年秋季研究発表会
[Presentation] 学習時と合成時の一貫性を考慮したVAEに基づく自己回帰型sequence-to-sequence音声合成2021
- Author(s)
  藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2021年春季研究発表会
[Presentation] 隠れセミマルコフモデルに基づく構造化アテンションを用いたSequence-to-Sequence音声合成2021
- Author(s)
  角谷健太, 吉村建慶, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2021年春季研究発表会
[Presentation] 周期・非周期成分の分離に基づくニューラルボコーダによる音声波形のモデル化の検討2021
- Author(s)
  法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2021年春季研究発表会
[Presentation] 勾配ブースティング決定木を用いた音声合成手法の検討2021
- Author(s)
  岩田康平, 高木信二, 橋本佳, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2021年春季研究発表会
[Presentation] 自発音声に基づく合成音声で対話するシステムがユーザに与える影響の調査2021
- Author(s)
  飯塚喬久，森大毅，西野広直
- Organizer
  日本音響学会2021年春季研究発表会
[Presentation] 韻律を考慮したend-to-end方式に基づく自発音声合成2021
- Author(s)
  西野広直，森大毅
- Organizer
  日本音響学会2021年春季研究発表会
[Presentation] 自発音声コーパスを用いて合成した音声で話すエージェントが会話相手の行動に与える影響2021
- Author(s)
  飯塚喬久，森大毅
- Organizer
  日本音響学会2021年秋季研究発表会
[Presentation] 感情次元の操作を目的とした声質変換手法の提案2021
- Author(s)
  向田圭汰, 森大毅
- Organizer
  電子情報通信学会音声研究会
[Presentation] Mask CTC: Non-autoregressive end-to-end ASR with CTC and mask predict2020
- Author(s)
  Yosuke Higuchi, Shinji Watanabe, Nanxin Chen, Tetsuji Ogawa, Tetsunori Kobayashi
- Organizer
  The 21th Annual Conference of the International Speech Communication Association (INTERSPEECH2020)
- Int'l Joint Research
[Presentation] CTCとマスク推定に基づく推論速度の速いEnd-to-End音声認識2020
- Author(s)
  樋口陽祐, 稲熊寛文, 渡部晋治, 小川哲司, 小林哲則
- Organizer
  電子情報通信学会技術研究報告 (SP)
[Presentation] Timing Generating Networks: 会話の文脈を考慮したターンテイキングのタイミング推定2020
- Author(s)
  片山颯人, 藤江真也, 佐久間仁, 松山洋一, 小林哲則
- Organizer
  人工知能学会第90回言語・音声理解と対話処理研究会
[Presentation] Mask CTC: CTCとマスク推定に基づいた非自己回帰的なEnd-to-End音声認識2020
- Author(s)
  樋口陽祐, 渡部晋治, Chen Nanxin, 小川哲司, 小林哲則
- Organizer
  日本音響学会2020年秋季研究発表会
[Presentation] 音声対話システムにおける発話期待度の逐次推定に基づくターンテイキングタイミングの予測2020
- Author(s)
  藤江真也, 片山颯人, 小林哲則
- Organizer
  人工知能学会全国大会（第34回）
[Presentation] 会話によるニュース記事伝達のための抽出型要約のパーソナライズ2020
- Author(s)
  高津弘明, 奥田真由, 松山洋一, 本田裕, 藤江真也, 小林哲則
- Organizer
  人工知能学会全国大会（第34回）
[Presentation] 会話によるニュース記事伝達のためのユーザの興味と記事要約戦略の関係性分析2020
- Author(s)
  奥田真由, 高津弘明, 松山洋一, 本田裕, 藤江真也, 小林哲則
- Organizer
  人工知能学会全国大会（第34回）
[Presentation] 音声合成における特徴的な発話スタイルの転移学習2020
- Author(s)
  久野宏彰，高木信二，橋本佳，大浦圭一郎，南角吉彦，徳田恵一
- Organizer
  第18回情報学ワークショップ
[Presentation] 音声合成における敵対的生成ネットワークを用いた複数言語・複数話者モデリングの検討2020
- Author(s)
  大谷眞史，佐藤優介，高木信二，橋本佳，大浦圭一郎，南角吉彦，徳田恵一
- Organizer
  第18回情報学ワークショップ
[Presentation] 大規模音楽データを活用した汎用WaveNetボコーダ構成法の検討2020
- Author(s)
  佐々木一匡，吉村建慶，橋本佳，大浦圭一郎，南角吉彦，徳田恵一
- Organizer
  第18回情報学ワークショップ
[Presentation] 勾配ブースティング決定木を用いた高速な音声合成手法の検討2020
- Author(s)
  岩田康平，高木信二，橋本佳，南角吉彦，徳田恵一
- Organizer
  第18回情報学ワークショップ
[Presentation] Hierarchical Multi-Grained Generative Model for Expressive Speech Synthesis2020
- Author(s)
  Yukiya Hono, Kazuna Tsuboi, Kei Sawada, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Organizer
  Interspeech 2020
- Int'l Joint Research
[Presentation] 感情音声合成のためのDirichlet VAE2020
- Author(s)
  藤本崇人, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2020年秋季研究発表会
[Presentation] DNNに基づく音声ボコーダにおける周期・非周期成分のモデル化の検討2020
- Author(s)
  法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2020年秋季研究発表会
[Presentation] 音声合成における敵対的生成ネットワークを用いた複数言語・複数話者モデリング2020
- Author(s)
  大谷眞史, 佐藤優介, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2020年秋季研究発表会
[Presentation] Semi-supervised learning based on hierarchical generative models for end-to-end speech synthesis2020
- Author(s)
  Takato Fujimoto, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Organizer
  2020 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- Int'l Joint Research
[Patent(Industrial Property Rights)] 情報再生プログラム、情報再生方法、情報処理装置及びデータ構造2020
- Inventor(s)
  高津弘明，小林哲則，藤江真也，松山洋一
- Industrial Property Rights Holder
  高津弘明，小林哲則，藤江真也，松山洋一
- Industrial Property Rights Type
  特許
- Industrial Property Number
  特願2020-176641

2020 Fiscal Year Annual Research Report

音声メディアを利用した情報伝達における相互行為の時間構造的特徴と伝達効率の関係

Principal Investigator

小林 哲則 早稲田大学, 理工学術院, 教授 (30162001)

Research Products

[Journal Article] 対話システムはどのように話すべきか: 実際の会話データに基づく話し言葉の合成2022

Author(s)

Journal Title

[Journal Article] Comparison of machine learning algorithms and acoustic features in emotion recognition from spontaneous speech2022

Author(s)

Journal Title

[Journal Article] PeriodNet: A Non-Autoregressive Raw Waveform Generative Model With a Structure Separating Periodic and Aperiodic Components2021

Author(s)

Journal Title

DOI

[Presentation] 粒度の異なるサブワード単位に基づく階層的条件付きEnd-to-End音声認識2022

Author(s)

Organizer

[Presentation] 声質・声の高さ・話速を変更可能なニューラルボコーダ構成法の検討2022

Author(s)

Organizer

[Presentation] HSMM構造化アテンションに基づく音声合成のためのメモリ削減手法2022

Author(s)

Organizer

[Presentation] 非周期性指標を考慮したニューラルボコーダの学習2022

Author(s)

Organizer

[Presentation] Autoregressive variational autoencoder with a hidden semi-Markov model-based structured attention for speech synthesis2022

Author(s)

Organizer

[Presentation] 複数の自然対話音声コーパスの併用によるend-to-end対話音声合成の高品質化2022

Author(s)

Organizer

[Presentation] An investigation of enhancing CTC model for triggered attention-based streaming ASR2021

Author(s)

Organizer

[Presentation] Timing Generating Networks: Neural Network Based Precise Turn-Taking Timing Prediction in Multiparty Conversation2021

Author(s)

Organizer

[Presentation] Improved Mask-CTC for non-autoregressive end-to-end ASR2021

Author(s)

Organizer

[Presentation] End-to-End音声認識のための粒度の異なるサブワード単位に基づく階層的な条件付け2021

Author(s)

Organizer

[Presentation] Self-Attention を用いた多人数会話向け発話タイミング推定2021

Author(s)

Organizer

[Presentation] Triggered attention型ストリーミング音声認識におけるMask-CTCを用いた事前学習2021

Author(s)

Organizer

[Presentation] Personalized Extractive Summarization for a News Dialogue System2021

Author(s)

Organizer

[Presentation] Noise-robust attention learning for end-to-end speech recognition2021

Author(s)

Organizer

[Presentation] TGNN による発話期待度のモデル化に基づく発話タイミング推定2021

Author(s)

Organizer

[Presentation] PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components2021

Author(s)

Organizer

[Presentation] 因子分析に基づくHSMMを利用した構造化アテンション音声合成2021

Author(s)

Organizer

[Presentation] 隠れセミマルコフモデルによる構造化アテンションを用いた自己回帰型VAEに基づくsequence-to-sequence音声合成2021

Author(s)

Organizer

[Presentation] 学習時と合成時の一貫性を考慮したVAEに基づく自己回帰型sequence-to-sequence音声合成2021

Author(s)

Organizer

[Presentation] 隠れセミマルコフモデルに基づく構造化アテンションを用いたSequence-to-Sequence音声合成2021

Author(s)

Organizer

[Presentation] 周期・非周期成分の分離に基づくニューラルボコーダによる音声波形のモデル化の検討2021

Author(s)

Organizer

[Presentation] 勾配ブースティング決定木を用いた音声合成手法の検討2021

Author(s)

小林哲則早稲田大学, 理工学術院, 教授 (30162001)