研究課題/領域番号 |
20K19903
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分61060:感性情報学関連
|
研究機関 | 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 |
研究代表者 |
千葉 祐弥 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 研究員 (30780936)
|
研究期間 (年度) |
2020-04-01 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2021年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
2020年度: 2,340千円 (直接経費: 1,800千円、間接経費: 540千円)
|
キーワード | 音声対話システム / マルチモーダル情報処理 / 応答生成 / 非言語情報 |
研究開始時の研究の概要 |
現在利用されている対話システムの多くは音声に大きく依存したインラクションを行っており,会話の文脈に沿って感情や表情を適切に表出することができない.対話システムが社会的な存在となり,ユーザと関係を構築するためには声の調子や表情,ジェスチャを適切に制御することで,人間的なインタラクションを実現できる必要がある.本研究課題では,深層学習に基づく対話システムの応答生成手法を拡張し,発話内容と非言語情報を同時に生成する応答生成モデルを提案する.大規模なマルチモーダル雑談対話コーパスを用いて提案モデルを学習することで,発話内容だけでなく非言語情報に関しても文脈を考慮した応答が可能になると期待される.
|
研究成果の概要 |
近年対話システムの分野において盛んに研究が行われているニューラルベース応答生成において,ユーザ発話の言語的情報と韻律情報を考慮する音声応答モデルを検討した.提案手法では,ベースラインよりも自然音声に近いF0系列が得られることを確認した.さらに,表情制御信号を扱えるように提案手法を拡張したマルチモーダル応答生成モデルを検討した.実験により,入力情報として複数のモダリティを考慮することでモデルの性能が向上できる可能性を示唆する結果を得た.加えて、マルチモーダル情報を利用した応答タイミング推定モデルを提案した.全体で6件の国内学会・研究会発表,4件の国際会議発表,1件の特許出願を行った.
|
研究成果の学術的意義や社会的意義 |
本課題では,近年盛んに研究されているニューラルベースの応答生成技術が言語情報だけでなく韻律や表情といった非言語情報も扱えること,また人間のコミュニケーションにおける社会的な現象を考慮できる可能性があることを示した.加えて,そのような非言語ベースの応答生成において効果的にモデルを学習するためのデータ拡張手法,自然なタイミング・間での応答を実現する応答タイミング推定手法も提案し,それぞれ一定の効果が得られた.これらの検討より,非言語情報を取り入れた対話システムの応答生成研究における有益な知見を提供できたと考える.本研究の成果は今後ますます重要性を増す対話システムの自然性の向上に寄与するものである.
|