2020 年度実績報告書

音声メディアを利用した情報伝達における相互行為の時間構造的特徴と伝達効率の関係

研究課題

研究課題/領域番号	18H04128
研究機関	早稲田大学
研究代表者	小林哲則早稲田大学, 理工学術院, 教授 (30162001)
研究分担者	藤江真也千葉工業大学, 先進工学部, 教授 (00367062) 森大毅宇都宮大学, 工学部, 准教授 (10302184) 徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
研究期間 (年度)	2018-04-01 – 2021-03-31
キーワード	会話システム / 会話のリズム / 発話タイミング推定 / 会話音声合成 / 低遅延音声認識
研究実績の概要	会話相互行為の時間構造のモデル化によってリズムの良い会話を実現し，会話による情報伝達の効率化に役立てることを試みた。20，21年度は，a.発話タイミングのモデル化，b.ユーザ応答の不活性化の要因調査，c.多様な表現を可能とする音声合成方式，d.低遅延音声認識方式の4点を中心に検討した。a.は，時間構造に直結するテーマ，b.はリズム形成の阻害要因調査，c.，d.はリズム形成にための主要要素技術という位置づけである。 a.については，対話行為認識を補助タスクとして組込むことの効果について検討した。音響・言語情報を用いるTransformer型のタイミング推定器に対し，対話行為推定を組み込むことで，25msF値（推定誤差が25ms以内で正解とする基準によるF値）は0.41，50msF値は0.63となり，組み込まない場合に比べそれぞれ14%，2%向上した。 b.については，会話コンテンツのリアリティ（実際の会話に出現したものか，人為的に作成したものか）の観点から整理した。会話の進行シナリオと合成音それぞれのリアリティが，ユーザ応答の活性度に有意に影響することを確認した。 c.については，センテンスコードと感情コードを用いて発話表現を自動分類しながらモデルを学習する手法を基礎として，これにDirichlet分布を用いたVariational Auto-Encoder構造，感情コードのアニーリング，Factor Analyzer構造などを導入した。受聴試験により，合成音声の品質を劣化させることなく，指定した発話表現を実現できることを確認した。 d.については，mask型Non-Autoregressive言語モデルをCTC音響モデルの学習時に併用すると，言語制約をCTC内に織り込むことができ，実行時はCTCだけでも少ない先読みで動作可能となり，低遅延で動作することを明らかにした。
現在までの達成度 (段落)	令和2年度が最終年度であるため、記入しない。
今後の研究の推進方策	令和2年度が最終年度であるため、記入しない。

研究成果
(46件)

すべて 2022 2021 2020

すべて雑誌論文 (3件) (うち査読あり 2件、オープンアクセス 1件) 学会発表 (42件) (うち国際学会 10件) 産業財産権 (1件)

[雑誌論文] 対話システムはどのように話すべきか: 実際の会話データに基づく話し言葉の合成2022
- 著者名/発表者名
  森大毅
- 雑誌名
  
  日本音響学会誌
  
  巻: 78 ページ: 283-288
[雑誌論文] Comparison of machine learning algorithms and acoustic features in emotion recognition from spontaneous speech2022
- 著者名/発表者名
  Takahisa Iizuka, Hiroki Mori
- 雑誌名
  
  Acoustical Science and Technology
  
  巻: 43 ページ: -
- 査読あり
[雑誌論文] PeriodNet: A Non-Autoregressive Raw Waveform Generative Model With a Structure Separating Periodic and Aperiodic Components2021
- 著者名/発表者名
  Yukiya Hono, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 雑誌名
  
  IEEE Access
  
  巻: 9 ページ: 137599-137612
- DOI
  10.1109/ACCESS.2021.3118033
- 査読あり / オープンアクセス
[学会発表] 粒度の異なるサブワード単位に基づく階層的条件付きEnd-to-End音声認識2022
- 著者名/発表者名
  樋口陽祐, 軽部敬太, 小川哲司, 小林哲則
- 学会等名
  日本音響学会2022年春季研究発表会
[学会発表] 声質・声の高さ・話速を変更可能なニューラルボコーダ構成法の検討2022
- 著者名/発表者名
  佐々木一匡, 吉村建慶, 高木信二, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2022年春季研究発表会
[学会発表] HSMM構造化アテンションに基づく音声合成のためのメモリ削減手法2022
- 著者名/発表者名
  藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2022年春季研究発表会
[学会発表] 非周期性指標を考慮したニューラルボコーダの学習2022
- 著者名/発表者名
  法野行哉, 高木信二, 橋本佳, 中村和寛, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2022年春季研究発表会
[学会発表] Autoregressive variational autoencoder with a hidden semi-Markov model-based structured attention for speech synthesis2022
- 著者名/発表者名
  Takato Fujimoto, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda
- 学会等名
  2021 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- 国際学会
[学会発表] 複数の自然対話音声コーパスの併用によるend-to-end対話音声合成の高品質化2022
- 著者名/発表者名
  西野広直，森大毅
- 学会等名
  日本音響学会2022年春季研究発表会
[学会発表] An investigation of enhancing CTC model for triggered attention-based streaming ASR2021
- 著者名/発表者名
  Huaibo Zhao, Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi
- 学会等名
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2021 (APSIPA2021)
- 国際学会
[学会発表] Timing Generating Networks: Neural Network Based Precise Turn-Taking Timing Prediction in Multiparty Conversation2021
- 著者名/発表者名
  Shinya Fujie, Hayato Katayama, Jin Sakuma, and Tetsunori Kobayashi
- 学会等名
  Interspeech 2021
- 国際学会
[学会発表] Improved Mask-CTC for non-autoregressive end-to-end ASR2021
- 著者名/発表者名
  Yosuke Higuchi, Hirofumi Inaguma, Shinji Watanabe, Tetsuji Ogawa, Tetsunori Kobayashi
- 学会等名
  2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2021)
- 国際学会
[学会発表] End-to-End音声認識のための粒度の異なるサブワード単位に基づく階層的な条件付け2021
- 著者名/発表者名
  樋口陽祐, 軽部敬太, 小川哲司, 小林哲則
- 学会等名
  情報処理学会研究報告 (SLP)
[学会発表] Self-Attention を用いた多人数会話向け発話タイミング推定2021
- 著者名/発表者名
  佐久間仁, 藤江真也, 小林哲則
- 学会等名
  人工知能学会第93回言語・音声理解と対話処理研究会
[学会発表] Triggered attention型ストリーミング音声認識におけるMask-CTCを用いた事前学習2021
- 著者名/発表者名
  趙懐博, 樋口陽祐, 小林哲則, 小川哲司
- 学会等名
  情報処理学会研究報告 (SLP)
[学会発表] Personalized Extractive Summarization for a News Dialogue System2021
- 著者名/発表者名
  Hiroaki Takatsu, Mayu Okuda, Yoichi Matsuyama, Hiroshi Honda, Shinya Fujie, and Tetsunori Kobayashi
- 学会等名
  The 8th IEEE Spoken Language Technology Workshop (SLT2021)
- 国際学会
[学会発表] Noise-robust attention learning for end-to-end speech recognition2021
- 著者名/発表者名
  Yosuke Higuchi, Naohiro Tawara, Atsunori Ogawa, Tomoharu Iwata, Tetsunori Kobayashi, Tetsuji Ogawa
- 学会等名
  The 2020 28th European Signal Processing Conference (EUSIPCO2020)
- 国際学会
[学会発表] TGNN による発話期待度のモデル化に基づく発話タイミング推定2021
- 著者名/発表者名
  佐久間仁, 片山颯人, 藤江真也, 小林哲則
- 学会等名
  日本音響学会2021年春季研究発表会
[学会発表] PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components2021
- 著者名/発表者名
  Yukiya Hono, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  2021 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- 国際学会
[学会発表] 因子分析に基づくHSMMを利用した構造化アテンション音声合成2021
- 著者名/発表者名
  高木信二, 牛田光一, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2021年秋季研究発表会
[学会発表] 隠れセミマルコフモデルによる構造化アテンションを用いた自己回帰型VAEに基づくsequence-to-sequence音声合成2021
- 著者名/発表者名
  藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2021年秋季研究発表会
[学会発表] 学習時と合成時の一貫性を考慮したVAEに基づく自己回帰型sequence-to-sequence音声合成2021
- 著者名/発表者名
  藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2021年春季研究発表会
[学会発表] 隠れセミマルコフモデルに基づく構造化アテンションを用いたSequence-to-Sequence音声合成2021
- 著者名/発表者名
  角谷健太, 吉村建慶, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2021年春季研究発表会
[学会発表] 周期・非周期成分の分離に基づくニューラルボコーダによる音声波形のモデル化の検討2021
- 著者名/発表者名
  法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2021年春季研究発表会
[学会発表] 勾配ブースティング決定木を用いた音声合成手法の検討2021
- 著者名/発表者名
  岩田康平, 高木信二, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2021年春季研究発表会
[学会発表] 自発音声に基づく合成音声で対話するシステムがユーザに与える影響の調査2021
- 著者名/発表者名
  飯塚喬久，森大毅，西野広直
- 学会等名
  日本音響学会2021年春季研究発表会
[学会発表] 韻律を考慮したend-to-end方式に基づく自発音声合成2021
- 著者名/発表者名
  西野広直，森大毅
- 学会等名
  日本音響学会2021年春季研究発表会
[学会発表] 自発音声コーパスを用いて合成した音声で話すエージェントが会話相手の行動に与える影響2021
- 著者名/発表者名
  飯塚喬久，森大毅
- 学会等名
  日本音響学会2021年秋季研究発表会
[学会発表] 感情次元の操作を目的とした声質変換手法の提案2021
- 著者名/発表者名
  向田圭汰, 森大毅
- 学会等名
  電子情報通信学会音声研究会
[学会発表] Mask CTC: Non-autoregressive end-to-end ASR with CTC and mask predict2020
- 著者名/発表者名
  Yosuke Higuchi, Shinji Watanabe, Nanxin Chen, Tetsuji Ogawa, Tetsunori Kobayashi
- 学会等名
  The 21th Annual Conference of the International Speech Communication Association (INTERSPEECH2020)
- 国際学会
[学会発表] CTCとマスク推定に基づく推論速度の速いEnd-to-End音声認識2020
- 著者名/発表者名
  樋口陽祐, 稲熊寛文, 渡部晋治, 小川哲司, 小林哲則
- 学会等名
  電子情報通信学会技術研究報告 (SP)
[学会発表] Timing Generating Networks: 会話の文脈を考慮したターンテイキングのタイミング推定2020
- 著者名/発表者名
  片山颯人, 藤江真也, 佐久間仁, 松山洋一, 小林哲則
- 学会等名
  人工知能学会第90回言語・音声理解と対話処理研究会
[学会発表] Mask CTC: CTCとマスク推定に基づいた非自己回帰的なEnd-to-End音声認識2020
- 著者名/発表者名
  樋口陽祐, 渡部晋治, Chen Nanxin, 小川哲司, 小林哲則
- 学会等名
  日本音響学会2020年秋季研究発表会
[学会発表] 音声対話システムにおける発話期待度の逐次推定に基づくターンテイキングタイミングの予測2020
- 著者名/発表者名
  藤江真也, 片山颯人, 小林哲則
- 学会等名
  人工知能学会全国大会（第34回）
[学会発表] 会話によるニュース記事伝達のための抽出型要約のパーソナライズ2020
- 著者名/発表者名
  高津弘明, 奥田真由, 松山洋一, 本田裕, 藤江真也, 小林哲則
- 学会等名
  人工知能学会全国大会（第34回）
[学会発表] 会話によるニュース記事伝達のためのユーザの興味と記事要約戦略の関係性分析2020
- 著者名/発表者名
  奥田真由, 高津弘明, 松山洋一, 本田裕, 藤江真也, 小林哲則
- 学会等名
  人工知能学会全国大会（第34回）
[学会発表] 音声合成における特徴的な発話スタイルの転移学習2020
- 著者名/発表者名
  久野宏彰，高木信二，橋本佳，大浦圭一郎，南角吉彦，徳田恵一
- 学会等名
  第18回情報学ワークショップ
[学会発表] 音声合成における敵対的生成ネットワークを用いた複数言語・複数話者モデリングの検討2020
- 著者名/発表者名
  大谷眞史，佐藤優介，高木信二，橋本佳，大浦圭一郎，南角吉彦，徳田恵一
- 学会等名
  第18回情報学ワークショップ
[学会発表] 大規模音楽データを活用した汎用WaveNetボコーダ構成法の検討2020
- 著者名/発表者名
  佐々木一匡，吉村建慶，橋本佳，大浦圭一郎，南角吉彦，徳田恵一
- 学会等名
  第18回情報学ワークショップ
[学会発表] 勾配ブースティング決定木を用いた高速な音声合成手法の検討2020
- 著者名/発表者名
  岩田康平，高木信二，橋本佳，南角吉彦，徳田恵一
- 学会等名
  第18回情報学ワークショップ
[学会発表] Hierarchical Multi-Grained Generative Model for Expressive Speech Synthesis2020
- 著者名/発表者名
  Yukiya Hono, Kazuna Tsuboi, Kei Sawada, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  Interspeech 2020
- 国際学会
[学会発表] 感情音声合成のためのDirichlet VAE2020
- 著者名/発表者名
  藤本崇人, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2020年秋季研究発表会
[学会発表] DNNに基づく音声ボコーダにおける周期・非周期成分のモデル化の検討2020
- 著者名/発表者名
  法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2020年秋季研究発表会
[学会発表] 音声合成における敵対的生成ネットワークを用いた複数言語・複数話者モデリング2020
- 著者名/発表者名
  大谷眞史, 佐藤優介, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2020年秋季研究発表会
[学会発表] Semi-supervised learning based on hierarchical generative models for end-to-end speech synthesis2020
- 著者名/発表者名
  Takato Fujimoto, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  2020 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- 国際学会
[産業財産権] 情報再生プログラム、情報再生方法、情報処理装置及びデータ構造2020
- 発明者名
  高津弘明，小林哲則，藤江真也，松山洋一
- 権利者名
  高津弘明，小林哲則，藤江真也，松山洋一
- 産業財産権種類
  特許
- 産業財産権番号
  特願2020-176641

2020 年度 実績報告書

音声メディアを利用した情報伝達における相互行為の時間構造的特徴と伝達効率の関係

研究代表者

小林 哲則 早稲田大学, 理工学術院, 教授 (30162001)

研究成果

[雑誌論文] 対話システムはどのように話すべきか: 実際の会話データに基づく話し言葉の合成2022

著者名/発表者名

雑誌名

[雑誌論文] Comparison of machine learning algorithms and acoustic features in emotion recognition from spontaneous speech2022

著者名/発表者名

雑誌名

[雑誌論文] PeriodNet: A Non-Autoregressive Raw Waveform Generative Model With a Structure Separating Periodic and Aperiodic Components2021

著者名/発表者名

雑誌名

DOI

[学会発表] 粒度の異なるサブワード単位に基づく階層的条件付きEnd-to-End音声認識2022

著者名/発表者名

学会等名

[学会発表] 声質・声の高さ・話速を変更可能なニューラルボコーダ構成法の検討2022

著者名/発表者名

学会等名

[学会発表] HSMM構造化アテンションに基づく音声合成のためのメモリ削減手法2022

著者名/発表者名

学会等名

[学会発表] 非周期性指標を考慮したニューラルボコーダの学習2022

著者名/発表者名

学会等名

[学会発表] Autoregressive variational autoencoder with a hidden semi-Markov model-based structured attention for speech synthesis2022

著者名/発表者名

学会等名

[学会発表] 複数の自然対話音声コーパスの併用によるend-to-end対話音声合成の高品質化2022

著者名/発表者名

学会等名

[学会発表] An investigation of enhancing CTC model for triggered attention-based streaming ASR2021

著者名/発表者名

学会等名

[学会発表] Timing Generating Networks: Neural Network Based Precise Turn-Taking Timing Prediction in Multiparty Conversation2021

著者名/発表者名

学会等名

[学会発表] Improved Mask-CTC for non-autoregressive end-to-end ASR2021

著者名/発表者名

学会等名

[学会発表] End-to-End音声認識のための粒度の異なるサブワード単位に基づく階層的な条件付け2021

著者名/発表者名

学会等名

[学会発表] Self-Attention を用いた多人数会話向け発話タイミング推定2021

著者名/発表者名

学会等名

[学会発表] Triggered attention型ストリーミング音声認識におけるMask-CTCを用いた事前学習2021

著者名/発表者名

学会等名

[学会発表] Personalized Extractive Summarization for a News Dialogue System2021

著者名/発表者名

学会等名

[学会発表] Noise-robust attention learning for end-to-end speech recognition2021

著者名/発表者名

学会等名

[学会発表] TGNN による発話期待度のモデル化に基づく発話タイミング推定2021

著者名/発表者名

学会等名

[学会発表] PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components2021

著者名/発表者名

学会等名

[学会発表] 因子分析に基づくHSMMを利用した構造化アテンション音声合成2021

著者名/発表者名

学会等名

[学会発表] 隠れセミマルコフモデルによる構造化アテンションを用いた自己回帰型VAEに基づくsequence-to-sequence音声合成2021

著者名/発表者名

学会等名

[学会発表] 学習時と合成時の一貫性を考慮したVAEに基づく自己回帰型sequence-to-sequence音声合成2021

著者名/発表者名

学会等名

[学会発表] 隠れセミマルコフモデルに基づく構造化アテンションを用いたSequence-to-Sequence音声合成2021

著者名/発表者名

学会等名

[学会発表] 周期・非周期成分の分離に基づくニューラルボコーダによる音声波形のモデル化の検討2021

著者名/発表者名

学会等名

[学会発表] 勾配ブースティング決定木を用いた音声合成手法の検討2021

著者名/発表者名

2020 年度実績報告書

小林哲則早稲田大学, 理工学術院, 教授 (30162001)