本年度は,昨年度までに構築した理論を,(1) より実社会に適した対話タスクに適用するためのアルゴリズム設計と (2) 多様な対話ドメインで動作可能な音声合成エージェントに向けたデータベース整備を実施した. (1) 人間のように対話相手の感情に共感して発話スタイルを制御する「共感的対話音声合成」というタスクにおいて,これまでの対話履歴を考慮して音声合成モデルを学習するアルゴリズムと,対話履歴の音声言語情報から発話スタイルに関する文脈情報をデータ駆動で獲得するための注意機構を設計した.評価結果から,従来の言語情報のみを考慮する学習アルゴリズムよりも表現力豊かな音声合成が実現できることを確認した. (2) (1) は,共感的対話のドメインとして「個別指導塾での教師と生徒の対話」に着目したものである.本研究ではさらに,「コールセンターでのオペレータと顧客の対話」を考え,カジュアルな対話ドメインとフォーマルな対話ドメインを両方カバーするための共感的対話音声合成コーパスを設計した.本コーパスにより,多ドメイン共感的対話音声合成のための continual learning 研究の推進が期待される.本コーパスは,非商用利用での研究開発目的であればオンラインで誰でも入手できるようになっている. 総括すると,本研究期間全体を通じた成果は以下のとおりである. (1) 単一話者のテキスト読み上げドメインにおける音声合成の continual learning の基礎検討 (2) (1) を多話者音声合成に拡張するための学習アルゴリズムの設計・評価 (3) (1) を対話音声合成に拡張するための学習アルゴリズムおよびニューラルネットワーク構造の設計・評価 (4) (3) を多ドメイン対話音声合成に拡張するためのデータベース整備
|