Generation and xplanation of laughter based on dialogue semantic understanding
Project/Area Number |
23K16901
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Kyoto University |
Principal Investigator |
井上 昂治 京都大学, 情報学研究科, 助教 (10838684)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,810,000 (Direct Cost: ¥3,700,000、Indirect Cost: ¥1,110,000)
Fiscal Year 2025: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2024: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Fiscal Year 2023: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
|
Keywords | 音声対話システム / 笑い / 対話理解 / 会話ロボット / ターンテイキング / 対話 / 意味理解 / 説明性 |
Outline of Research at the Start |
本研究は「会話ロボットは発話の意味を理解して笑うことができるか」という問いのもとに、適切なタイミングで適切な種類の笑いを表出することができる会話ロボットの実現を目指す。会話ロボットが適切に笑うためには、対話中の発話の意味を、その文脈も含めて高度に理解する必要がある。そこで、本研究ではまず、音声対話中の笑いの有無とその理由に関するデータセットを構築する。そして、対話の意味理解に基づく笑いの予測・説明モデルを構築する。その際に、大規模言語モデルを活用する。そして、構築したモデルを音声対話システムへ統合し、様々なロボットおよび対話場面において、会話ロボットが笑うことによる効果を検証する。
|
Outline of Annual Research Achievements |
本年度は、対話の文脈に応じて自然な笑いを生成するモデルを構築するためのデータセットの構築に主に取り組んだ。これまでに収集されている日本語テキスト対話データセットを用いて、各発話に対してその後に対話相手が笑うことができるか否かをアノテーションした。その結果、900対話に対してアノテーションを完了することができた。また、上記と並行して、大規模言語モデルによる自動アノテーションも検討した。そして、人手によるアノテーションと大規模言語モデルによる自動アノテーションの結果の違いについても検討した。 また、音声対話システムの基礎技術として、ターンテイキング技術の高度化や客観的評価の確立にも取り組んだ。ターンテイキング技術は、システムの円滑な発話開始に重要なものである。本研究では、最新のTransformerに基づくモデルを、日本語を含む多言語に対応させ、さらにリアルタイムで動作させることに成功した。このモデルには、Transformerの注意機構を対話参与者間で共有するものであり、今後、音声対話の基盤モデルとして進展していくことが期待される。音声対話システムの客観的評価については、複数の対話タスクを対象として、その主観評価と関係するユーザのふるまいを分析した。対象とした対話タスクは、傾聴、就職面接、初対面会話である。分析の結果、対話タスクに応じて異なるふるまいが、ユーザの主観評価と関係することが明らかになった。これにより、評価したい対話タスクの性質に応じて、評価の手がかりになり得るユーザのふるまいを定義することが可能になった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の核となるデータセットのアノテーションは順調に進行している。加えて、大規模言語モデルとの比較も検討が進んでおり、多面的な角度からの研究を遂行することができている。また、当初の計画にはなかったが、音声対話システムの基礎技術についても成果が出ており、全体的な統合など今後の展開が見込まれる。
|
Strategy for Future Research Activity |
次年度は、データセットのアノテーションを進め、データ数を増加させる。そして、対話中の笑いを生成する機械学習モデルを構築し、大規模言語モデルと精度を比較する。音声による対話生成においては、本年度に構築したターンテイキングシステムにおけるTransformerモデルを拡張し、対話音声から直接生成するモデルの構築を試みる。
|
Report
(1 results)
Research Products
(7 results)