2019 年度実績報告書

音声メディアを利用した情報伝達における相互行為の時間構造的特徴と伝達効率の関係

研究課題

研究課題/領域番号	18H04128
研究機関	早稲田大学
研究代表者	小林哲則早稲田大学, 理工学術院, 教授 (30162001)
研究分担者	藤江真也千葉工業大学, 先進工学部, 准教授 (00367062) 森大毅宇都宮大学, 工学部, 准教授 (10302184) 徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
研究期間 (年度)	2018-04-01 – 2021-03-31
キーワード	会話システム / 情報アクセス / 会話音声合成 / 発話タイミング制御 / 会話活性化要因解析
研究実績の概要	会話による情報伝達の質は会話活性度に依存するとの仮定の下で，A.会話活性度の向上要素を明らかにし，B.これを満足して会話活性度を向上させる技術を実現するとともに，C.実現した技術でどの程度情報伝達は改善するかを明らかにする。これまでに，会話活性度は1)相互行為の時間構造，2)システムと人との関係性（信頼度，親和度），3)システムの話し方に依存することを明らかにした。これを踏まえ，2019年度は以下の検討を行った。 A.会話活性化要因の解明については，システム発話における非流暢性／ノンバーバル行動, 自発音声の言語的特徴の有無と，ユーザの反応の頻度を調査し，自発音声の言語的特徴が聞き手反応の頻度に関連していることを明らかにした（森）。 B-1)時間構造関連技術については，ターンテイキングのタイミングの評価のためのユーザ主観を考慮した指標を提案するとともに，システムの適切な発話タイミングをデータに基づいてEnd-to-Endに学習する枠組みを実現した（小林，藤江）。 B-2)システムと人との関係性の改善技術については，特にWHY型の質問に対する回答機能を充実させた。ニュースに表れる事象相互の因果関係を自動抽出するシステムを構築し，これを用いてニュース伝達会話に現れるWHY型質問に回答するシステムのプロトタイプを作成した(小林)。また，ユーザのプロファイルに応じて，個人毎に適切な情報伝達シナリオを作成する枠組みを実現した (小林)。 B-3)システムの話し方関連技術に関しては，効率的な情報伝達を実現するために，多様な発話表現を自在に操ることが可能な音声合成システムを構築した。様々な発話表現を含む音声データから音声合成用モデルを学習する際，センテンスコードと感情コードを利用することで，発話表現を自動分類しながら音声合成用モデルを学習し，表現豊かな合成音声を生成可能とした（徳田）。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由 A.会話活性化要因の解明については，Wizard of Ozシステムの開発を進め，様々な要因を制御しながら，ユーザの振舞を観察する枠組みを完成させた。現状，説明者の発話にける非流暢性／ノンバーバル行動, 自発音声の言語的特徴の有無について調査を終えた。自然な人同士の会話においては，交替潜時やピッチなどの韻律的特徴あるいは言語的特徴が互いに似てくるという同調現象(synchrony)があることが知られているが，この同調現象の有無が，システム-人会話においても，ユーザの振舞に影響するか否かの調査が課題として残っている（森）。 B-1)時間構造関連技術に関しては，理想的なタイミングと実際のタイミングとの差が，人の主観に与える影響を明らかにした。また，データに基づいて，システムの発話タイミングを決める方法を実現した。学習データの拡充に基づく，精度の向上が課題として残っている（藤江）。 B-2)システムと人との関係性の改善技術については，HYY型質問に答えるためのシステムの基本構成方針が固まり，そこで必要となる学習データの整備を開始した。学習用データベースの整備は重要な問題であるが収集を開始し，量的に十分とはいえないが予備的な実験を開始できる状況にある。このデータ拡張とシステムの精度向上が課題として残っている（小林）。 B-3)システムの話し方関連技術に関しては，センテンスコードと感情コードを用いて発話表現を自動分類しながら音声合成用モデルを学習する基本技術を確立した。一方で，合成音声の品質は従来法から大きな改善を得られていないため，新たなコードの追加や合成音声の品質改善に取り組み，より効率的な情報伝達を実現する音声合成システムの研究開発に取り組むことが課題として残っている（徳田）。 C.総合評価は未着手であるが，最終年度の重要課題として，2020年度後半に予定している。
今後の研究の推進方策	従来方針に沿って調査・開発・実験を進める。開発中の個別要素技術の精度を改善し，これらを統合して，情報伝達の質の向上にどの程度寄与するかを調査する。また，調査の結果明らかになる新機能があればこれも統合システムに組み込む。 A.会話活性化要因の解明については，これまでの検討要因に加え，ユーザの韻律的・言語的振舞への同調の有無と被説明者の聞き手反応の出現頻度の関係を調査する（森）。 B-1)時間構造関連技術に関しては，今年度開発した発話タイミングの決定手法のための学習データを拡充して精度を向上させるとともに，これを用いた対話システムの印象評価を行う。また，タイミング決定に必要となるユーザの状態推定技術に関して，特に会話の履歴の利用の観点から検討する（藤江）。 B-2)システムと人との関係性の改善技術については，昨年度に引き続き，WHY型の質問への回答機能の実現に取り組む。データを拡充して精度を向上させるとともに，関連ニュースの履歴に関する情報の利用法について検討する（小林）。 B-3)システムの話し方関連技術に関しては，これまでに提案した手法を更に拡張し，Dirichlet分布を用いたVariational Auto-Encoder構造，感情コードのアニーリング，Factor Analyzer構造などを導入することにより，合成音声の品質を劣化させることなく，指定した発話表現を精度良く実現可能な音声合成システムを構成する。また，その有効性を受聴試験により確認する（徳田）。最終的に，それぞれの検討の成果を統合し，会話システムを実現して，情報伝達の質がどの程度改善するかを評価する（全員）。なお，COVID19の関係で，被験者実験の再開が困難な場合には，大量被験者による量的評価は行わず，少数被験者による簡易な質的評価を行う。学習データの拡充も困難になるため，手法の理論検討に注力する。

研究成果
(35件)

すべて 2020 2019

すべて雑誌論文 (11件) (うち査読あり 11件、オープンアクセス 7件) 学会発表 (24件) (うち国際学会 2件、招待講演 4件)

[雑誌論文] Speaker adversarial training of DPGMM-based feature extractor for zero-resource languages,2019
- 著者名/発表者名
  Yosuke Higuchi, Naohiro Tawara, Tetsunori Kobayashi, Tetsuji Ogawa,
- 雑誌名
  
  Proc. Interspeech 2019
  
  巻: - ページ: 266-270
- DOI
  10.21437/Interspeech.2019-2052
- 査読あり / オープンアクセス
[雑誌論文] Towards Answer-unaware Conversational Question Generation2019
- 著者名/発表者名
  Mao Nakanishi, Tetsunori Kobayashi, Yoshihiko Hayashi
- 雑誌名
  
  Proc. 2nd Workshop on Machine Reading for Question Answering (MRQA2019
  
  巻: - ページ: 63_71
- DOI
  10.18653/v1/D19-5809
- 査読あり
[雑誌論文] Recognition of Intentions of Users’ Short Responses for Conversational News Delivery System2019
- 著者名/発表者名
  Hiroaki Takatsu, Katsuya Yokoyama, Yoichi Matsuyama, Hiroshi Honda, Shinya Fujie, Tetsunori Kobayash
- 雑誌名
  
  Proc. Interspeech 2019
  
  巻: - ページ: 1193-1197
- DOI
  10.21437/Interspeech.2019-2121
- 査読あり / オープンアクセス
[雑誌論文] Multi-channel speech enhancement using time-domain convolutional denoising autoencoder2019
- 著者名/発表者名
  Naohiro Tawara, Tetsunori Kobayashi, Tetsuji Ogawa
- 雑誌名
  
  Proc. Interspeech 2019
  
  巻: - ページ: 86-90
- DOI
  10.21437/Interspeech.2019-3197
- 査読あり / オープンアクセス
[雑誌論文] Deep neural network based real-time speech vocoder with periodic and aperiodic inputs2019
- 著者名/発表者名
  Keiichiro Oura, Kazuhiro Nakamura, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda,
- 雑誌名
  
  10th ISCA Speech Synthesis Workshop (SSW10)
  
  巻: - ページ: 13-18
- DOI
  10.21437/SSW.2019-32
- 査読あり / オープンアクセス
[雑誌論文] Impacts of input linguistic feature representation on Japanese end-to-end speech synthesis2019
- 著者名/発表者名
  Takato Fujimoto, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 雑誌名
  
  10th ISCA Speech Synthesis Workshop (SSW10)
  
  巻: - ページ: 166-171
- DOI
  10.21437/SSW.2019-30
- 査読あり / オープンアクセス
[雑誌論文] Low computational cost speech synthesis based on deep neural networks using hidden semi-Markov model structures2019
- 著者名/発表者名
  Motoki Shimada, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 雑誌名
  
  10th ISCA Speech Synthesis Workshop (SSW10)
  
  巻: - ページ: 177-182
- DOI
  10.21437/SSW.2019-32
- 査読あり / オープンアクセス
[雑誌論文] Speaker-dependent WaveNet-based delay-free ADPCM speech coding2019
- 著者名/発表者名
  Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 雑誌名
  
  2019 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
  
  巻: - ページ: 7145-7149
- DOI
  10.1109/ICASSP.2019.8682264
- 査読あり
[雑誌論文] Singing voice synthesis based on generative adversarial networks2019
- 著者名/発表者名
  Yukiya Hono, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 雑誌名
  
  2019 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
  
  巻: - ページ: 6955-6959
- DOI
  0.1109/ICASSP.2019.8683154
- 査読あり
[雑誌論文] Effectiveness of speech mode adaptation for improving dialogue speech synthesis2019
- 著者名/発表者名
  Kazuki Kaya and Hiroki Mori
- 雑誌名
  
  IEICE Transactions on Information and Systems
  
  巻: E102-D ページ: 2064-2066
- DOI
  10.1587/transinf.2019EDL8024
- 査読あり
[雑誌論文] Conversational and social laughter synthesis with WaveNet2019
- 著者名/発表者名
  Hiroki Mori, Tomohiro Nagata, and Yoshiko Arimoto
- 雑誌名
  
  Proc. Interspeech 2019
  
  巻: - ページ: 520-523
- DOI
  10.21437/Interspeech.2019-2131
- 査読あり / オープンアクセス
[学会発表] 質問応答の強化学習による抽象型要約の精度向上2020
- 著者名/発表者名
  高塚雅人, 小林哲則, 林良彦
- 学会等名
  言語処理学会第26回年次大会
[学会発表] ニュース対話システムにおける感情音声合成のためのニュース記事の文に対する感情ラベルのアノテーションと識別2020
- 著者名/発表者名
  高津弘明,安藤涼太,松山洋一,小林哲則
- 学会等名
  言語処理学会第27回年次大会
[学会発表] 答えを用いない対話型質問の生成2020
- 著者名/発表者名
  中西真央, 小林哲則, 林良彦
- 学会等名
  言語処理学会第28回年次大会
[学会発表] 感情推定における感情カテゴリに関する先験的知識の利用2020
- 著者名/発表者名
  田辺ひかり, 小川哲司, 小林哲則, 林良
- 学会等名
  言語処理学会第29回年次大会
[学会発表] 音声対話システムのためのターンテイキングのタイミングの評価2020
- 著者名/発表者名
  藤江真也，小林哲則
- 学会等名
  日本音響学会2020年春季研究発表会
[学会発表] 多人数のための音響・言語情報の重要度を考慮した応答義務推定2020
- 著者名/発表者名
  柴田　護，藤江真也
- 学会等名
  日本音響学会2020年春季研究発表会
[学会発表] 傾聴対話のための音声対話ロボットの開発と評価2020
- 著者名/発表者名
  伊島翔大，関根みくり，藤江真也
- 学会等名
  日本音響学会2020年春季研究発表会
[学会発表] 原稿の有無が説明者の発話と被説明者の反応に与える影響の分析2020
- 著者名/発表者名
  高松屋友翼，森大毅
- 学会等名
  日本音響学会2020年春季研究発表会
[学会発表] End-to-middle training based action generation for multi-party conversation robot2019
- 著者名/発表者名
  Hayato Katayama, Shinya Fujie and Tetsunori Kobayashi
- 学会等名
  10th International Workshop on Spoken Dialogue Systems Technology (IWSDS) 2019
- 国際学会
[学会発表] 多人数会話システムのための話者の状態変化に頑健な注視状態検出2019
- 著者名/発表者名
  野川賢二郎,藤江真也,小林哲則
- 学会等名
  2019年度人工知能学会全国大会(第33回)
[学会発表] 会話によるニュース記事伝達のためのトリビアの獲得と活用2019
- 著者名/発表者名
  高津弘明,松山洋一,本田裕,藤江真也,小林哲則
- 学会等名
  2019年度人工知能学会全国大会(第33回)
[学会発表] End-to-end学習を用いたマルチモーダル多人数会話における対話ロボットの行動ターゲット生成2019
- 著者名/発表者名
  片山颯人，藤江真也，小林哲則
- 学会等名
  2019年度人工知能学会全国大会(第33回)
[学会発表] スマートスピーカにおける多人数会話のための音響・言語情報を用いた応答義務推定2019
- 著者名/発表者名
  柴田　護，糸日谷篤人，藤江真也
- 学会等名
  日本音響学会2019年秋季研究発表会
[学会発表] Statistical approach to speech synthesis: past, present and future2019
- 著者名/発表者名
  Keiichi Tokuda
- 学会等名
  Interspeech 2019
- 国際学会 / 招待講演
[学会発表] 統計的音声合成の進展と展望2019
- 著者名/発表者名
  徳田恵一
- 学会等名
  電子情報通信学会音声研究会
- 招待講演
[学会発表] 統計的歌声合成技術とその実用化2019
- 著者名/発表者名
  大浦圭一郎
- 学会等名
  日本AI音楽学会
- 招待講演
[学会発表] 統計的パラメトリック音声合成技術とその実用化2019
- 著者名/発表者名
  大浦圭一郎
- 学会等名
  情報処理学会音声言語情報処理研究会
- 招待講演
[学会発表] 歌声合成におけるニューラルボコーダの比較検討2019
- 著者名/発表者名
  和田蒼汰, 法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  電子情報通信学会音声研究会
[学会発表] 周期・非周期信号を用いたDNNに基づくリアルタイム音声ボコーダ2019
- 著者名/発表者名
  大浦圭一郎, 中村和寛, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  情報処理学会音声言語情報処理研究会
[学会発表] End-to-End音声合成のための階層化生成モデルに基づく半教師あり学習2019
- 著者名/発表者名
  藤本崇人, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2020年春季研究発表会
[学会発表] 周期・非周期信号を用いた敵対的生成ネットワークに基づくリアルタイム音声ボコーダ2019
- 著者名/発表者名
  大浦圭一郎, 高木信二, 中村和寛, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2019年秋季研究発表会
[学会発表] 楽譜時間情報を用いたアテンション機構に基づく歌声合成の検討2019
- 著者名/発表者名
  村田舜馬, 藤本崇人, 法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2019年秋季研究発表会
[学会発表] 自発音声に対するニューラルF0モデリングの可能性2019
- 著者名/発表者名
  永田智洋, 森大毅
- 学会等名
  日本音響学会2019年秋季研究発表会
[学会発表] 感情表出系感動詞の鼻音化に関する種々の分析2019
- 著者名/発表者名
  高岸勇斗, 森大毅
- 学会等名
  日本音響学会2019年秋季研究発表会

2019 年度 実績報告書

音声メディアを利用した情報伝達における相互行為の時間構造的特徴と伝達効率の関係

研究代表者

小林 哲則 早稲田大学, 理工学術院, 教授 (30162001)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Speaker adversarial training of DPGMM-based feature extractor for zero-resource languages,2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] Towards Answer-unaware Conversational Question Generation2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] Recognition of Intentions of Users’ Short Responses for Conversational News Delivery System2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] Multi-channel speech enhancement using time-domain convolutional denoising autoencoder2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] Deep neural network based real-time speech vocoder with periodic and aperiodic inputs2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] Impacts of input linguistic feature representation on Japanese end-to-end speech synthesis2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] Low computational cost speech synthesis based on deep neural networks using hidden semi-Markov model structures2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] Speaker-dependent WaveNet-based delay-free ADPCM speech coding2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] Singing voice synthesis based on generative adversarial networks2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] Effectiveness of speech mode adaptation for improving dialogue speech synthesis2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] Conversational and social laughter synthesis with WaveNet2019

著者名/発表者名

雑誌名

DOI

[学会発表] 質問応答の強化学習による抽象型要約の精度向上2020

著者名/発表者名

学会等名

[学会発表] ニュース対話システムにおける感情音声合成のためのニュース記事の文に対する感情ラベルのアノテーションと識別2020

著者名/発表者名

学会等名

[学会発表] 答えを用いない対話型質問の生成2020

著者名/発表者名

学会等名

[学会発表] 感情推定における感情カテゴリに関する先験的知識の利用2020

著者名/発表者名

学会等名

[学会発表] 音声対話システムのためのターンテイキングのタイミングの評価2020

著者名/発表者名

学会等名

[学会発表] 多人数のための音響・言語情報の重要度を考慮した応答義務推定2020

著者名/発表者名

学会等名

[学会発表] 傾聴対話のための音声対話ロボットの開発と評価2020

著者名/発表者名

学会等名

[学会発表] 原稿の有無が説明者の発話と被説明者の反応に与える影響の分析2020

著者名/発表者名

学会等名

[学会発表] End-to-middle training based action generation for multi-party conversation robot2019

著者名/発表者名

学会等名

[学会発表] 多人数会話システムのための話者の状態変化に頑健な注視状態検出2019

著者名/発表者名

2019 年度実績報告書

小林哲則早稲田大学, 理工学術院, 教授 (30162001)