2018 Fiscal Year Annual Research Report

音声メディアを利用した情報伝達における相互行為の時間構造的特徴と伝達効率の関係

Research Project

Project/Area Number	18H04128
Research Institution	Waseda University
Principal Investigator	小林哲則早稲田大学, 理工学術院, 教授 (30162001)
Co-Investigator(Kenkyū-buntansha)	森大毅宇都宮大学, 工学部, 准教授 (10302184) 藤江真也千葉工業大学, 先進工学部, 准教授 (00367062) 徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
Project Period (FY)	2018-04-01 – 2021-03-31
Keywords	音声会話システム / 情報行動 / 情報伝達 / 情報アクセス / シナリオ主導 / 会話活性化
Outline of Annual Research Achievements	本研究では，会話による情報伝達効率は会話活性度に依存し，会話活性度は相互行為の時間構造，伝え手(システム)と受け手(人) の親密度，伝え手の話し方等が相互に関係するとの仮定の下に，a.情報伝達会話における会話活性度を向上させる要素を明らかにし，b.これらを満足して会話活性度を向上させる会話システムを実現するとともに，c.実現した会話システムでどの程度情報伝達は効率化するかを明らかにすることを目的とする。このうち，2018年度はa.とb.に取り組んだ。 a.会話活性度を向上させる要素の解明にあたっては，a1.相互行為の時間構造(情報伝達会話を構成する基本行為の遷移パターンと遷移時間)，a2.伝え手と聞き手の親密度に注目した。まず，情報伝達会話を構成する相互行為は，どのような基本行為に分類できるかを整理するとともに，人同士が円滑に進める情報伝達会話において，基本行為の遷移パターンはどのような性質を呈するかを調査した。また，情報伝達中に関連する豆知識の提供行為や，他者指向の発話行為（相手に共感したり，自己の評価を披露したりする発話）の有無によって，会話の親密度や会話活性度がどの程度変化するかを調査した。 b.活性度を向上させる会話システムは，既提案のシナリオ主導会話システムをもとに構成した。これは，伝えようとする記事から自動生成されるシナリオに基づいて会話を進めることで，即時応答性に優れることを特徴とする。新たに検討すべき技術として，b1.即応性を改善するための音声認識技術，b2.ユーザの応答を誘発する音声合成技術に焦点を当てた。b1.については，遅延のない発話末推定技術に取組んだ。b2.については，核(伝えるべき最も重要な部分)と衛星(前置きや補足にあたる部分)の読み分け機能，および間の制御機能の実装に加え，発話表現の自動分類に基づいて表現性を改善することについても検討した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason テーマa.においては，まず，人同士の会話における，会話の円滑化を目的とした特徴的な行為を整理すること目的として，文献を調査するとともに，人が実際に記事内容を口頭で伝える会話を収録し，分析した。この結果，関連話題に関するトリビアの提示，他者指向発話（伝達内容に主観的評価を加える発話，聞き手に共感を求める発話，聞き手の発話に共感する発話など）などが多用されることがわかった。ついで，現状の会話システムを用いて実際に会話を行い，これらの発話の有無と会話活性度との関係を調査した。会話活性度は会話中にユーザが行うフィードバック発話の量として定義し，分析には重回帰分析を用いた。この結果，①発話の間の良さはフィードバックの量に寄与する，②質疑応答の質はフィードバックの量に寄与する，③伝達内容に関連するトリビアを披露する行為はトピックへの興味増進および親密感の増進に寄与する，④他者指向的発話は親密感の増進に寄与する，⑤親密感とフィードバックの量に明確な因果関係は明らかでない，などを明らかにした。テーマb.におけるb1.即応性を改善する音声認識については，発話権のKeep/Releaseに係るユーザの意思を逐次推定することを試みた。狭帯域スペクトログラムにオートエンコーダを適用して得る韻律特徴量，および音声認識結果をLSTMに入力する構成によって，所望の情報を高精度に判定できることを示し，これをシステム発話のタイミング制御に利用できる可能性を示した。b2.ユーザの応答を誘発する音声合成については，核(伝えるべき最も重要な部分)と衛星(前置きや補足にあたる部分)の読み分け機能，および間の制御機能の実装に加え，基本合成器の機能改善についても検討を行った。センテンスコードと感情コードを用いて発話表現を自動分類しながら音声合成用モデルを学習することによって，従来法に比べ表現性を大幅に改善した。
Strategy for Future Research Activity	テーマa.においては，2018年度に改良した会話システムを用いることで，より精緻化した形で会話活性度向上に資する要素の解明を試みる。18年度の成果として，前節①－④に挙げたような因果関係が明らかになったが，18年度の実験に用いたシステムは，「会話の間」，「質疑応答の質」が不十分なため，詳細なレベルで会話活性化に資する要因を調査することが困難であった。19年度は，18年度に開発した高精度な発話権の推定器を会話システムに組み込んで，より微妙な会話の間の調整を可能にするととともに，ダミーの質疑応答モジュールを用意して問題を回避し，会話の構成要素の時間構造と会話活性化に焦点を当てた，一段詳細なレベルでの分析を行う。また，18年度に引き続き，人同士の会話に種々の制約を与えることで会話活性度がいかに影響を受けるかについての実験も行う。特に，人が人を相手にする場合とシステムを相手にする場合の発話間ポーズの違いを分析し，人間が何を手がかりに間を制御しているかについて仮説を立て，実験を通じて検証する。テーマb.においては， 18年度に引き続きb1.即応性を改善するための音声認識技術，b2.ユーザの応答を誘発する音声合成技術の高度化ついて取り組むとともに，b3.会話における質疑応答の質の改善に取り組む。b1.においては，言語情報の扱いを中心に，ユーザの状態推定モデルの精緻化について検討する。b2.においては，新たなコードの追加や合成音声の品質改善に取り組み，より効率的な情報伝達を実現する音声合成システムの研究開発に取り組む。b3.は，18年度の検討の結果，質疑応答の質が会話活性度に大きな影響を与えるとの分析結果を受けて，19年度新たに起こすテーマである。項目a.の実施において，19年度はダミーのモジュールを用いるが，20年度はここで開発するモジュールを用いて全体を自動化する予定である。

Research Products
(22 results)

All 2019 2018

All Journal Article (2 results) (of which Peer Reviewed: 2 results, Open Access: 2 results) Presentation (20 results) (of which Int'l Joint Research: 4 results)

[Journal Article] 会話によるニュース記事伝達のための音声合成2019
- Author(s)
  高津弘明, 福岡維新, 藤江真也, 岩田和彦, 小林哲則
- Journal Title
  
  人工知能学会論文誌
  
  Volume: 34(2) Pages: B-I65 1-15
- DOI
  https://doi.org/10.1527/tjsai.B-I65
- Peer Reviewed / Open Access
[Journal Article] 対話音声合成の表現力向上に向けた文末音調の制御による付加的なニュアンスの表現に関する実験的検討2019
- Author(s)
  岩田和彦, 小林哲則
- Journal Title
  
  電子情報通信学会論文誌D
  
  Volume: J102-D(6) Pages: 442-453
- DOI
  10.14923/transinfj.2018JDP7055
- Peer Reviewed / Open Access
[Presentation] システム発話の文脈を考慮した発話意図理解2019
- Author(s)
  高津弘明, 横山勝矢, 本田裕, 藤江真也, 小林哲則
- Organizer
  言語処理学会第25回年次大会
[Presentation] 会話によるニュース記事伝達のための要約2019
- Author(s)
  高津弘明, 本田裕, 藤江真也, 林良彦, 小林哲則
- Organizer
  言語処理学会第25回年次大会
[Presentation] 隠れセミマルコフモデルの構造を用いたDNNに基づく音声合成における計算量削減手法の検討2019
- Author(s)
  島田基樹, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会 2019年春季研究発表会
[Presentation] 周期・非周期信号から駆動するディープニューラルネットワークに基づく音声ボコーダ2019
- Author(s)
  藤本崇人, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会 2019年春季研究発表会
[Presentation] DNNに基づく感情音声合成のための敵対的学習の検討2019
- Author(s)
  角谷健太, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会 2019年春季研究発表会
[Presentation] イベント継続時間モデルを用いた聞き手反応の検出2019
- Author(s)
  森本洋介，森大毅
- Organizer
  日本音響学会 2019年春季研究発表会
[Presentation] スマートスピーカにおける多人数会話のための応答義務推定2019
- Author(s)
  柴田　護，藤江真也
- Organizer
  日本音響学会 2019年春季研究発表会
[Presentation] 傾聴対話システムのための高齢者発話の継続／終了識別2019
- Author(s)
  伊島翔大，藤江真也
- Organizer
  日本音響学会 2019年春季研究発表会
[Presentation] Investigation of Users’ Short Responses in Actual Conversation System and Automatic Recognition of their Intentions2018
- Author(s)
  K Yokoyama, H Takatsu, H Honda, S Fujie, T Kobayashi
- Organizer
  2018 IEEE Spoken Language Technology Workshop (SLT), 934-940
- Int'l Joint Research
[Presentation] 会話によるニュース記事伝達のための発話意図の分類と認識2018
- Author(s)
  横山勝矢，高津弘明，本田裕，藤江真也，小林哲則
- Organizer
  情報処理学会音声言語情報処理研究会
[Presentation] 会話によるニュース記事伝達のための発話意図分類とデータベースの構築2018
- Author(s)
  横山勝矢, 高津弘明, 本田裕, 藤江真也, 林良彦, 小林哲則
- Organizer
  人工知能学会全国大会
[Presentation] 会話によるニュース記事伝達のための発話意図理解2018
- Author(s)
  高津弘明, 横山勝矢, 本田裕, 藤江真也, 林良彦, 小林哲則
- Organizer
  人工知能学会全国大会
[Presentation] Speech Synthesis Using WaveNet Vocoder Based on Periodic/Aperiodic Decomposition2018
- Author(s)
  Takato Fujimoto, Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Organizer
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2018)
- Int'l Joint Research
[Presentation] Speaker Adaptation for Speech Synthesis Based on Deep Neural Networks Using Hidden Semi-Markov Model Structures2018
- Author(s)
  Kento Nakao, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Organizer
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2018)
- Int'l Joint Research
[Presentation] The NITech text-to-speech system for the Blizzard Challenge 20182018
- Author(s)
  Kei Sawada, Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Organizer
  Blizzard Challenge 2018 Workshop
- Int'l Joint Research
[Presentation] 時間構造を考慮したニューラルネットワークに基づく音声合成における話者適応の検討2018
- Author(s)
  中尾健人, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  電子情報通信学会音声研究会
[Presentation] 周期・非周期成分の分離に基づくWaveNetボコーダを用いた音声合成2018
- Author(s)
  藤本崇人, 吉村建慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会 2018年秋季研究発表会
[Presentation] Blizzard Challenge 2018のためのNITechテキスト音声合成システム2018
- Author(s)
  沢田慶, 吉村建慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会 2018年秋季研究発表会
[Presentation] 傾聴対話システムのための高齢者音声を用いた発話終了判定2018
- Author(s)
  伊島翔大，藤江真也
- Organizer
  第17回情報科学技術フォーラム，FIT 2018
[Presentation] 音声対話システムのためのユーザの発話権維持状態の逐次推定2018
- Author(s)
  藤江真也, 横山勝矢, 小林哲則
- Organizer
  人工知能学会全国大会

2018 Fiscal Year Annual Research Report

音声メディアを利用した情報伝達における相互行為の時間構造的特徴と伝達効率の関係

Principal Investigator

小林 哲則 早稲田大学, 理工学術院, 教授 (30162001)

Current Status of Research Progress

Reason

Research Products

[Journal Article] 会話によるニュース記事伝達のための音声合成2019

Author(s)

Journal Title

DOI

[Journal Article] 対話音声合成の表現力向上に向けた文末音調の制御による付加的なニュアンスの表現に関する実験的検討2019

Author(s)

Journal Title

DOI

[Presentation] システム発話の文脈を考慮した発話意図理解2019

Author(s)

Organizer

[Presentation] 会話によるニュース記事伝達のための要約2019

Author(s)

Organizer

[Presentation] 隠れセミマルコフモデルの構造を用いたDNNに基づく音声合成における計算量削減手法の検討2019

Author(s)

Organizer

[Presentation] 周期・非周期信号から駆動するディープニューラルネットワークに基づく音声ボコーダ2019

Author(s)

Organizer

[Presentation] DNNに基づく感情音声合成のための敵対的学習の検討2019

Author(s)

Organizer

[Presentation] イベント継続時間モデルを用いた聞き手反応の検出2019

Author(s)

Organizer

[Presentation] スマートスピーカにおける多人数会話のための応答義務推定2019

Author(s)

Organizer

[Presentation] 傾聴対話システムのための高齢者発話の継続／終了識別2019

Author(s)

Organizer

[Presentation] Investigation of Users’ Short Responses in Actual Conversation System and Automatic Recognition of their Intentions2018

Author(s)

Organizer

[Presentation] 会話によるニュース記事伝達のための発話意図の分類と認識2018

Author(s)

Organizer

[Presentation] 会話によるニュース記事伝達のための発話意図分類とデータベースの構築2018

Author(s)

Organizer

[Presentation] 会話によるニュース記事伝達のための発話意図理解2018

Author(s)

Organizer

[Presentation] Speech Synthesis Using WaveNet Vocoder Based on Periodic/Aperiodic Decomposition2018

Author(s)

Organizer

[Presentation] Speaker Adaptation for Speech Synthesis Based on Deep Neural Networks Using Hidden Semi-Markov Model Structures2018

Author(s)

Organizer

[Presentation] The NITech text-to-speech system for the Blizzard Challenge 20182018

Author(s)

Organizer

[Presentation] 時間構造を考慮したニューラルネットワークに基づく音声合成における話者適応の検討2018

Author(s)

Organizer

[Presentation] 周期・非周期成分の分離に基づくWaveNetボコーダを用いた音声合成2018

Author(s)

Organizer

[Presentation] Blizzard Challenge 2018のためのNITechテキスト音声合成システム2018

Author(s)

Organizer

[Presentation] 傾聴対話システムのための高齢者音声を用いた発話終了判定2018

Author(s)

Organizer

[Presentation] 音声対話システムのためのユーザの発話権維持状態の逐次推定2018

Author(s)

Organizer

小林哲則早稲田大学, 理工学術院, 教授 (30162001)