2019 Fiscal Year Annual Research Report

音声メディアを利用した情報伝達における相互行為の時間構造的特徴と伝達効率の関係

Research Project

Project/Area Number	18H04128
Research Institution	Waseda University
Principal Investigator	小林哲則早稲田大学, 理工学術院, 教授 (30162001)
Co-Investigator(Kenkyū-buntansha)	藤江真也千葉工業大学, 先進工学部, 准教授 (00367062) 森大毅宇都宮大学, 工学部, 准教授 (10302184) 徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
Project Period (FY)	2018-04-01 – 2021-03-31
Keywords	会話システム / 情報アクセス / 会話音声合成 / 発話タイミング制御 / 会話活性化要因解析
Outline of Annual Research Achievements	会話による情報伝達の質は会話活性度に依存するとの仮定の下で，A.会話活性度の向上要素を明らかにし，B.これを満足して会話活性度を向上させる技術を実現するとともに，C.実現した技術でどの程度情報伝達は改善するかを明らかにする。これまでに，会話活性度は1)相互行為の時間構造，2)システムと人との関係性（信頼度，親和度），3)システムの話し方に依存することを明らかにした。これを踏まえ，2019年度は以下の検討を行った。 A.会話活性化要因の解明については，システム発話における非流暢性／ノンバーバル行動, 自発音声の言語的特徴の有無と，ユーザの反応の頻度を調査し，自発音声の言語的特徴が聞き手反応の頻度に関連していることを明らかにした（森）。 B-1)時間構造関連技術については，ターンテイキングのタイミングの評価のためのユーザ主観を考慮した指標を提案するとともに，システムの適切な発話タイミングをデータに基づいてEnd-to-Endに学習する枠組みを実現した（小林，藤江）。 B-2)システムと人との関係性の改善技術については，特にWHY型の質問に対する回答機能を充実させた。ニュースに表れる事象相互の因果関係を自動抽出するシステムを構築し，これを用いてニュース伝達会話に現れるWHY型質問に回答するシステムのプロトタイプを作成した(小林)。また，ユーザのプロファイルに応じて，個人毎に適切な情報伝達シナリオを作成する枠組みを実現した (小林)。 B-3)システムの話し方関連技術に関しては，効率的な情報伝達を実現するために，多様な発話表現を自在に操ることが可能な音声合成システムを構築した。様々な発話表現を含む音声データから音声合成用モデルを学習する際，センテンスコードと感情コードを利用することで，発話表現を自動分類しながら音声合成用モデルを学習し，表現豊かな合成音声を生成可能とした（徳田）。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason A.会話活性化要因の解明については，Wizard of Ozシステムの開発を進め，様々な要因を制御しながら，ユーザの振舞を観察する枠組みを完成させた。現状，説明者の発話にける非流暢性／ノンバーバル行動, 自発音声の言語的特徴の有無について調査を終えた。自然な人同士の会話においては，交替潜時やピッチなどの韻律的特徴あるいは言語的特徴が互いに似てくるという同調現象(synchrony)があることが知られているが，この同調現象の有無が，システム-人会話においても，ユーザの振舞に影響するか否かの調査が課題として残っている（森）。 B-1)時間構造関連技術に関しては，理想的なタイミングと実際のタイミングとの差が，人の主観に与える影響を明らかにした。また，データに基づいて，システムの発話タイミングを決める方法を実現した。学習データの拡充に基づく，精度の向上が課題として残っている（藤江）。 B-2)システムと人との関係性の改善技術については，HYY型質問に答えるためのシステムの基本構成方針が固まり，そこで必要となる学習データの整備を開始した。学習用データベースの整備は重要な問題であるが収集を開始し，量的に十分とはいえないが予備的な実験を開始できる状況にある。このデータ拡張とシステムの精度向上が課題として残っている（小林）。 B-3)システムの話し方関連技術に関しては，センテンスコードと感情コードを用いて発話表現を自動分類しながら音声合成用モデルを学習する基本技術を確立した。一方で，合成音声の品質は従来法から大きな改善を得られていないため，新たなコードの追加や合成音声の品質改善に取り組み，より効率的な情報伝達を実現する音声合成システムの研究開発に取り組むことが課題として残っている（徳田）。 C.総合評価は未着手であるが，最終年度の重要課題として，2020年度後半に予定している。
Strategy for Future Research Activity	従来方針に沿って調査・開発・実験を進める。開発中の個別要素技術の精度を改善し，これらを統合して，情報伝達の質の向上にどの程度寄与するかを調査する。また，調査の結果明らかになる新機能があればこれも統合システムに組み込む。 A.会話活性化要因の解明については，これまでの検討要因に加え，ユーザの韻律的・言語的振舞への同調の有無と被説明者の聞き手反応の出現頻度の関係を調査する（森）。 B-1)時間構造関連技術に関しては，今年度開発した発話タイミングの決定手法のための学習データを拡充して精度を向上させるとともに，これを用いた対話システムの印象評価を行う。また，タイミング決定に必要となるユーザの状態推定技術に関して，特に会話の履歴の利用の観点から検討する（藤江）。 B-2)システムと人との関係性の改善技術については，昨年度に引き続き，WHY型の質問への回答機能の実現に取り組む。データを拡充して精度を向上させるとともに，関連ニュースの履歴に関する情報の利用法について検討する（小林）。 B-3)システムの話し方関連技術に関しては，これまでに提案した手法を更に拡張し，Dirichlet分布を用いたVariational Auto-Encoder構造，感情コードのアニーリング，Factor Analyzer構造などを導入することにより，合成音声の品質を劣化させることなく，指定した発話表現を精度良く実現可能な音声合成システムを構成する。また，その有効性を受聴試験により確認する（徳田）。最終的に，それぞれの検討の成果を統合し，会話システムを実現して，情報伝達の質がどの程度改善するかを評価する（全員）。なお，COVID19の関係で，被験者実験の再開が困難な場合には，大量被験者による量的評価は行わず，少数被験者による簡易な質的評価を行う。学習データの拡充も困難になるため，手法の理論検討に注力する。

Research Products
(35 results)

All 2020 2019

All Journal Article (11 results) (of which Peer Reviewed: 11 results, Open Access: 7 results) Presentation (24 results) (of which Int'l Joint Research: 2 results, Invited: 4 results)

[Journal Article] Speaker adversarial training of DPGMM-based feature extractor for zero-resource languages,2019
- Author(s)
  Yosuke Higuchi, Naohiro Tawara, Tetsunori Kobayashi, Tetsuji Ogawa,
- Journal Title
  
  Proc. Interspeech 2019
  
  Volume: - Pages: 266-270
- DOI
  10.21437/Interspeech.2019-2052
- Peer Reviewed / Open Access
[Journal Article] Towards Answer-unaware Conversational Question Generation2019
- Author(s)
  Mao Nakanishi, Tetsunori Kobayashi, Yoshihiko Hayashi
- Journal Title
  
  Proc. 2nd Workshop on Machine Reading for Question Answering (MRQA2019
  
  Volume: - Pages: 63_71
- DOI
  10.18653/v1/D19-5809
- Peer Reviewed
[Journal Article] Recognition of Intentions of Users’ Short Responses for Conversational News Delivery System2019
- Author(s)
  Hiroaki Takatsu, Katsuya Yokoyama, Yoichi Matsuyama, Hiroshi Honda, Shinya Fujie, Tetsunori Kobayash
- Journal Title
  
  Proc. Interspeech 2019
  
  Volume: - Pages: 1193-1197
- DOI
  10.21437/Interspeech.2019-2121
- Peer Reviewed / Open Access
[Journal Article] Multi-channel speech enhancement using time-domain convolutional denoising autoencoder2019
- Author(s)
  Naohiro Tawara, Tetsunori Kobayashi, Tetsuji Ogawa
- Journal Title
  
  Proc. Interspeech 2019
  
  Volume: - Pages: 86-90
- DOI
  10.21437/Interspeech.2019-3197
- Peer Reviewed / Open Access
[Journal Article] Deep neural network based real-time speech vocoder with periodic and aperiodic inputs2019
- Author(s)
  Keiichiro Oura, Kazuhiro Nakamura, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda,
- Journal Title
  
  10th ISCA Speech Synthesis Workshop (SSW10)
  
  Volume: - Pages: 13-18
- DOI
  10.21437/SSW.2019-32
- Peer Reviewed / Open Access
[Journal Article] Impacts of input linguistic feature representation on Japanese end-to-end speech synthesis2019
- Author(s)
  Takato Fujimoto, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Journal Title
  
  10th ISCA Speech Synthesis Workshop (SSW10)
  
  Volume: - Pages: 166-171
- DOI
  10.21437/SSW.2019-30
- Peer Reviewed / Open Access
[Journal Article] Low computational cost speech synthesis based on deep neural networks using hidden semi-Markov model structures2019
- Author(s)
  Motoki Shimada, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Journal Title
  
  10th ISCA Speech Synthesis Workshop (SSW10)
  
  Volume: - Pages: 177-182
- DOI
  10.21437/SSW.2019-32
- Peer Reviewed / Open Access
[Journal Article] Speaker-dependent WaveNet-based delay-free ADPCM speech coding2019
- Author(s)
  Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Journal Title
  
  2019 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
  
  Volume: - Pages: 7145-7149
- DOI
  10.1109/ICASSP.2019.8682264
- Peer Reviewed
[Journal Article] Singing voice synthesis based on generative adversarial networks2019
- Author(s)
  Yukiya Hono, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Journal Title
  
  2019 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
  
  Volume: - Pages: 6955-6959
- DOI
  0.1109/ICASSP.2019.8683154
- Peer Reviewed
[Journal Article] Effectiveness of speech mode adaptation for improving dialogue speech synthesis2019
- Author(s)
  Kazuki Kaya and Hiroki Mori
- Journal Title
  
  IEICE Transactions on Information and Systems
  
  Volume: E102-D Pages: 2064-2066
- DOI
  10.1587/transinf.2019EDL8024
- Peer Reviewed
[Journal Article] Conversational and social laughter synthesis with WaveNet2019
- Author(s)
  Hiroki Mori, Tomohiro Nagata, and Yoshiko Arimoto
- Journal Title
  
  Proc. Interspeech 2019
  
  Volume: - Pages: 520-523
- DOI
  10.21437/Interspeech.2019-2131
- Peer Reviewed / Open Access
[Presentation] 質問応答の強化学習による抽象型要約の精度向上2020
- Author(s)
  高塚雅人, 小林哲則, 林良彦
- Organizer
  言語処理学会第26回年次大会
[Presentation] ニュース対話システムにおける感情音声合成のためのニュース記事の文に対する感情ラベルのアノテーションと識別2020
- Author(s)
  高津弘明,安藤涼太,松山洋一,小林哲則
- Organizer
  言語処理学会第27回年次大会
[Presentation] 答えを用いない対話型質問の生成2020
- Author(s)
  中西真央, 小林哲則, 林良彦
- Organizer
  言語処理学会第28回年次大会
[Presentation] 感情推定における感情カテゴリに関する先験的知識の利用2020
- Author(s)
  田辺ひかり, 小川哲司, 小林哲則, 林良
- Organizer
  言語処理学会第29回年次大会
[Presentation] 音声対話システムのためのターンテイキングのタイミングの評価2020
- Author(s)
  藤江真也，小林哲則
- Organizer
  日本音響学会2020年春季研究発表会
[Presentation] 多人数のための音響・言語情報の重要度を考慮した応答義務推定2020
- Author(s)
  柴田　護，藤江真也
- Organizer
  日本音響学会2020年春季研究発表会
[Presentation] 傾聴対話のための音声対話ロボットの開発と評価2020
- Author(s)
  伊島翔大，関根みくり，藤江真也
- Organizer
  日本音響学会2020年春季研究発表会
[Presentation] 原稿の有無が説明者の発話と被説明者の反応に与える影響の分析2020
- Author(s)
  高松屋友翼，森大毅
- Organizer
  日本音響学会2020年春季研究発表会
[Presentation] End-to-middle training based action generation for multi-party conversation robot2019
- Author(s)
  Hayato Katayama, Shinya Fujie and Tetsunori Kobayashi
- Organizer
  10th International Workshop on Spoken Dialogue Systems Technology (IWSDS) 2019
- Int'l Joint Research
[Presentation] 多人数会話システムのための話者の状態変化に頑健な注視状態検出2019
- Author(s)
  野川賢二郎,藤江真也,小林哲則
- Organizer
  2019年度人工知能学会全国大会(第33回)
[Presentation] 会話によるニュース記事伝達のためのトリビアの獲得と活用2019
- Author(s)
  高津弘明,松山洋一,本田裕,藤江真也,小林哲則
- Organizer
  2019年度人工知能学会全国大会(第33回)
[Presentation] End-to-end学習を用いたマルチモーダル多人数会話における対話ロボットの行動ターゲット生成2019
- Author(s)
  片山颯人，藤江真也，小林哲則
- Organizer
  2019年度人工知能学会全国大会(第33回)
[Presentation] スマートスピーカにおける多人数会話のための音響・言語情報を用いた応答義務推定2019
- Author(s)
  柴田　護，糸日谷篤人，藤江真也
- Organizer
  日本音響学会2019年秋季研究発表会
[Presentation] Statistical approach to speech synthesis: past, present and future2019
- Author(s)
  Keiichi Tokuda
- Organizer
  Interspeech 2019
- Int'l Joint Research / Invited
[Presentation] 統計的音声合成の進展と展望2019
- Author(s)
  徳田恵一
- Organizer
  電子情報通信学会音声研究会
- Invited
[Presentation] 統計的歌声合成技術とその実用化2019
- Author(s)
  大浦圭一郎
- Organizer
  日本AI音楽学会
- Invited
[Presentation] 統計的パラメトリック音声合成技術とその実用化2019
- Author(s)
  大浦圭一郎
- Organizer
  情報処理学会音声言語情報処理研究会
- Invited
[Presentation] 歌声合成におけるニューラルボコーダの比較検討2019
- Author(s)
  和田蒼汰, 法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  電子情報通信学会音声研究会
[Presentation] 周期・非周期信号を用いたDNNに基づくリアルタイム音声ボコーダ2019
- Author(s)
  大浦圭一郎, 中村和寛, 橋本佳, 南角吉彦, 徳田恵一
- Organizer
  情報処理学会音声言語情報処理研究会
[Presentation] End-to-End音声合成のための階層化生成モデルに基づく半教師あり学習2019
- Author(s)
  藤本崇人, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2020年春季研究発表会
[Presentation] 周期・非周期信号を用いた敵対的生成ネットワークに基づくリアルタイム音声ボコーダ2019
- Author(s)
  大浦圭一郎, 高木信二, 中村和寛, 橋本佳, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2019年秋季研究発表会
[Presentation] 楽譜時間情報を用いたアテンション機構に基づく歌声合成の検討2019
- Author(s)
  村田舜馬, 藤本崇人, 法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2019年秋季研究発表会
[Presentation] 自発音声に対するニューラルF0モデリングの可能性2019
- Author(s)
  永田智洋, 森大毅
- Organizer
  日本音響学会2019年秋季研究発表会
[Presentation] 感情表出系感動詞の鼻音化に関する種々の分析2019
- Author(s)
  高岸勇斗, 森大毅
- Organizer
  日本音響学会2019年秋季研究発表会

2019 Fiscal Year Annual Research Report

音声メディアを利用した情報伝達における相互行為の時間構造的特徴と伝達効率の関係

Principal Investigator

小林 哲則 早稲田大学, 理工学術院, 教授 (30162001)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Speaker adversarial training of DPGMM-based feature extractor for zero-resource languages,2019

Author(s)

Journal Title

DOI

[Journal Article] Towards Answer-unaware Conversational Question Generation2019

Author(s)

Journal Title

DOI

[Journal Article] Recognition of Intentions of Users’ Short Responses for Conversational News Delivery System2019

Author(s)

Journal Title

DOI

[Journal Article] Multi-channel speech enhancement using time-domain convolutional denoising autoencoder2019

Author(s)

Journal Title

DOI

[Journal Article] Deep neural network based real-time speech vocoder with periodic and aperiodic inputs2019

Author(s)

Journal Title

DOI

[Journal Article] Impacts of input linguistic feature representation on Japanese end-to-end speech synthesis2019

Author(s)

Journal Title

DOI

[Journal Article] Low computational cost speech synthesis based on deep neural networks using hidden semi-Markov model structures2019

Author(s)

Journal Title

DOI

[Journal Article] Speaker-dependent WaveNet-based delay-free ADPCM speech coding2019

Author(s)

Journal Title

DOI

[Journal Article] Singing voice synthesis based on generative adversarial networks2019

Author(s)

Journal Title

DOI

[Journal Article] Effectiveness of speech mode adaptation for improving dialogue speech synthesis2019

Author(s)

Journal Title

DOI

[Journal Article] Conversational and social laughter synthesis with WaveNet2019

Author(s)

Journal Title

DOI

[Presentation] 質問応答の強化学習による抽象型要約の精度向上2020

Author(s)

Organizer

[Presentation] ニュース対話システムにおける感情音声合成のためのニュース記事の文に対する感情ラベルのアノテーションと識別2020

Author(s)

Organizer

[Presentation] 答えを用いない対話型質問の生成2020

Author(s)

Organizer

[Presentation] 感情推定における感情カテゴリに関する先験的知識の利用2020

Author(s)

Organizer

[Presentation] 音声対話システムのためのターンテイキングのタイミングの評価2020

Author(s)

Organizer

[Presentation] 多人数のための音響・言語情報の重要度を考慮した応答義務推定2020

Author(s)

Organizer

[Presentation] 傾聴対話のための音声対話ロボットの開発と評価2020

Author(s)

Organizer

[Presentation] 原稿の有無が説明者の発話と被説明者の反応に与える影響の分析2020

Author(s)

Organizer

[Presentation] End-to-middle training based action generation for multi-party conversation robot2019

Author(s)

Organizer

[Presentation] 多人数会話システムのための話者の状態変化に頑健な注視状態検出2019

Author(s)

小林哲則早稲田大学, 理工学術院, 教授 (30162001)