2022 年度実績報告書

リアルなＣＧとのマルチモーダル対話システムを用いた楽しい雑談対話の要因解明

公募研究

研究領域	人間機械共生社会を目指した対話知能システム学
研究課題/領域番号	22H04863
研究機関	豊橋技術科学大学
研究代表者	北岡教英豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (10333501)
研究期間 (年度)	2022-04-01 – 2024-03-31
キーワード	フォトリアルCG / 音声対話 / マルチモーダル対話
研究実績の概要	将来の人間－機械協奏社会を考えると，機械がいかに人間に近い存在になり自然で容易にコミュニケーションが取れるようになるかは重要な課題となる。人間に近い姿をすることは一つの可能性であり、我々は本物の人間と区別がつかない3D CG「Saya」に注目し，Sayaをエージェントとして音声・マルチモーダル対話を行えるシステムの構築を行った。みかけがリアルである分、音声対話の応答内容もリアルでないと不釣り合いになる。そうしたリアルな応答生成の手段として、ChatGPTが大きく取り上げられる中、履歴から次の発話を生成するのみのChatGPTのような生成モデルでは内容が制御しにくいという問題がある。それに対してどのような話題で応答を生成したいかを与えてその話題に近い発話をするようなデータセットを用意し、それによってファインチューニングすることで、応答生成時にも話題を与えることで話題を制御できる方法を考案した。また、こうして生成された応答を、相手が話しを終えて発話権が移ったうえで音声として発する必要がある。そのために、今の相手の発話の切れ目（無音）を発話終端とみなして話してよいかどうかを判定する発話終端検出手法を提案した。そして、提案しているROSベースのリアルタイム音声対話システム上に実装した。構築した対話システムは多くの場所で設置してフィールド試験を実施している。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由予定していたマルチモーダル対話システムが完成に近づいている。大規模言語モデルを用いた発話生成と、その発話タイミングの制御を行う発話終端検出やタイミング生成モデルはそれぞれに作成され、評価された。また、マルチモダリティとして視線や顔向きの出力ができるが、これらに関しては過去の研究の知見である、話している間は目をそらして終わりに近づくと目を合わせるなどの動作を実装してその自然性を評価した。さらに、カメラを用いた人間の頭部動作や視線の検出なども実装された。実証実験として高齢者施設への設置を考えているが、コロナ規制が緩和されたことで実際に実施できることを期待している。
今後の研究の推進方策	個々の技術が実装・評価されてきたので、一つのリアルタイム音声・マルチモーダル対話システムとして組み上げることを早急に行う。そのうえで、高齢者施設に設置して対話の継続性やリピート率などの評価を行う。さまざまな設定でのシステムを入れ替えながら評価し、それぞれの設定（音声のタイミング、視線の合わせ方、など）のどれが雑談を長期化させたり楽しませたりする要因になっているのかを探り出す。

研究成果
(5件)

すべて 2023 2022

すべて雑誌論文 (2件) (うち査読あり 1件、オープンアクセス 2件) 学会発表 (3件) (うち国際学会 1件)

[雑誌論文] Input Utterance Complementation Method by Anaphora Resolution for Spontaneous Utterances on Spoken Dialog Systems2022
- 著者名/発表者名
  Nishimura Ryota、Mori Raita、Ohta Kengo、Kitaoka Norihide
- 雑誌名
  
  Transactions of the Japanese Society for Artificial Intelligence
  
  巻: 37 ページ: IDS～F_1-13
- DOI
  10.1527/tjsai.37-3_IDS-F
- 査読あり / オープンアクセス
[雑誌論文] フォトリアルCGエージェントとのマルチモーダル対話2022
- 著者名/発表者名
  北岡教英、西村良太、太田健吾
- 雑誌名
  
  日本音響学会誌
  
  巻: 78 ページ: 257～264
- DOI
  10.20697/jasj.78.5_257
- オープンアクセス
[学会発表] 割り込み発話にも対応可能なリアルタイム話者交替システム2023
- 著者名/発表者名
  杉山雅和，西村良太，太田健吾，北岡教英
- 学会等名
  日本音響学会春季研究発表会
[学会発表] A response generation method of chat-bot system using input formatting and reference resolution2022
- 著者名/発表者名
  Takahiro Kinouchi, Norihide Kitaoka
- 学会等名
  ICAICTA-2022
- 国際学会
[学会発表] EMOtive A.I. "Saya2022
- 著者名/発表者名
  大須賀晋，田中五大，鍋倉彩那，中野涼太，渡邊凌太，石川友香，石川晃之，中村晃一，藤井裕也，堀内颯太，東中竜一郎，西村良太，太田健吾，北岡教英
- 学会等名
  人工知能学会言語・音声理解と対話処理研究会

2022 年度 実績報告書

リアルなＣＧとのマルチモーダル対話システムを用いた楽しい雑談対話の要因解明

研究代表者

北岡 教英 豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (10333501)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Input Utterance Complementation Method by Anaphora Resolution for Spontaneous Utterances on Spoken Dialog Systems2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] フォトリアルCGエージェントとのマルチモーダル対話2022

著者名/発表者名

雑誌名

DOI

[学会発表] 割り込み発話にも対応可能なリアルタイム話者交替システム2023

著者名/発表者名

学会等名

[学会発表] A response generation method of chat-bot system using input formatting and reference resolution2022

著者名/発表者名

学会等名

[学会発表] EMOtive A.I. "Saya2022

著者名/発表者名

学会等名

2022 年度実績報告書

北岡教英豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (10333501)