研究課題/領域番号 |
18H04128
|
研究機関 | 早稲田大学 |
研究代表者 |
小林 哲則 早稲田大学, 理工学術院, 教授 (30162001)
|
研究分担者 |
藤江 真也 千葉工業大学, 先進工学部, 准教授 (00367062)
森 大毅 宇都宮大学, 工学部, 准教授 (10302184)
徳田 恵一 名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 会話システム / 情報アクセス / 会話音声合成 / 発話タイミング制御 / 会話活性化要因解析 |
研究実績の概要 |
会話による情報伝達の質は会話活性度に依存するとの仮定の下で,A.会話活性度の向上要素を明らかにし,B.これを満足して会話活性度を向上させる技術を実現するとともに,C.実現した技術でどの程度情報伝達は改善するかを明らかにする。 これまでに,会話活性度は1)相互行為の時間構造,2)システムと人との関係性(信頼度,親和度),3)システムの話し方に依存することを明らかにした。これを踏まえ,2019年度は以下の検討を行った。 A.会話活性化要因の解明については,システム発話における非流暢性/ノンバーバル行動, 自発音声の言語的特徴の有無と,ユーザの反応の頻度を調査し,自発音声の言語的特徴が聞き手反応の頻度に関連していることを明らかにした(森)。 B-1)時間構造関連技術については,ターンテイキングのタイミングの評価のためのユーザ主観を考慮した指標を提案するとともに,システムの適切な発話タイミングをデータに基づいてEnd-to-Endに学習する枠組みを実現した(小林,藤江)。 B-2)システムと人との関係性の改善技術については,特にWHY型の質問に対する回答機能を充実させた。ニュースに表れる事象相互の因果関係を自動抽出するシステムを構築し,これを用いてニュース伝達会話に現れるWHY型質問に回答するシステムのプロトタイプを作成した(小林)。また,ユーザのプロファイルに応じて,個人毎に適切な情報伝達シナリオを作成する枠組みを実現した (小林)。 B-3)システムの話し方関連技術に関しては,効率的な情報伝達を実現するために,多様な発話表現を自在に操ることが可能な音声合成システムを構築した。様々な発話表現を含む音声データから音声合成用モデルを学習する際,センテンスコードと感情コードを利用することで,発話表現を自動分類しながら音声合成用モデルを学習し,表現豊かな合成音声を生成可能とした(徳田)。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
A.会話活性化要因の解明については,Wizard of Ozシステムの開発を進め,様々な要因を制御しながら,ユーザの振舞を観察する枠組みを完成させた。現状,説明者の発話にける非流暢性/ノンバーバル行動, 自発音声の言語的特徴の有無について調査を終えた。自然な人同士の会話においては,交替潜時やピッチなどの韻律的特徴あるいは言語的特徴が互いに似てくるという同調現象(synchrony)があることが知られているが,この同調現象の有無が,システム-人会話においても,ユーザの振舞に影響するか否かの調査が課題として残っている(森)。 B-1)時間構造関連技術に関しては,理想的なタイミングと実際のタイミングとの差が,人の主観に与える影響を明らかにした。また,データに基づいて,システムの発話タイミングを決める方法を実現した。学習データの拡充に基づく,精度の向上が課題として残っている(藤江)。 B-2)システムと人との関係性の改善技術については,HYY型質問に答えるためのシステムの基本構成方針が固まり,そこで必要となる学習データの整備を開始した。学習用データベースの整備は重要な問題であるが収集を開始し,量的に十分とはいえないが予備的な実験を開始できる状況にある。このデータ拡張とシステムの精度向上が課題として残っている(小林)。 B-3)システムの話し方関連技術に関しては,センテンスコードと感情コードを用いて発話表現を自動分類しながら音声合成用モデルを学習する基本技術を確立した。一方で,合成音声の品質は従来法から大きな改善を得られていないため,新たなコードの追加や合成音声の品質改善に取り組み,より効率的な情報伝達を実現する音声合成システムの研究開発に取り組むことが課題として残っている(徳田)。 C.総合評価は未着手であるが,最終年度の重要課題として,2020年度後半に予定している。
|
今後の研究の推進方策 |
従来方針に沿って調査・開発・実験を進める。開発中の個別要素技術の精度を改善し,これらを統合して,情報伝達の質の向上にどの程度寄与するかを調査する。また,調査の結果明らかになる新機能があればこれも統合システムに組み込む。 A.会話活性化要因の解明については,これまでの検討要因に加え,ユーザの韻律的・言語的振舞への同調の有無と被説明者の聞き手反応の出現頻度の関係を調査する(森)。 B-1)時間構造関連技術に関しては,今年度開発した発話タイミングの決定手法のための学習データを拡充して精度を向上させるとともに,これを用いた対話システムの印象評価を行う。また,タイミング決定に必要となるユーザの状態推定技術に関して,特に会話の履歴の利用の観点から検討する(藤江)。 B-2)システムと人との関係性の改善技術については,昨年度に引き続き,WHY型の質問への回答機能の実現に取り組む。データを拡充して精度を向上させるとともに,関連ニュースの履歴に関する情報の利用法について検討する(小林)。 B-3)システムの話し方関連技術に関しては,これまでに提案した手法を更に拡張し,Dirichlet分布を用いたVariational Auto-Encoder構造,感情コードのアニーリング,Factor Analyzer構造などを導入することにより,合成音声の品質を劣化させることなく,指定した発話表現を精度良く実現可能な音声合成システムを構成する。また,その有効性を受聴試験により確認する(徳田)。 最終的に,それぞれの検討の成果を統合し,会話システムを実現して,情報伝達の質がどの程度改善するかを評価する(全員)。なお,COVID19の関係で,被験者実験の再開が困難な場合には,大量被験者による量的評価は行わず,少数被験者による簡易な質的評価を行う。学習データの拡充も困難になるため,手法の理論検討に注力する。
|