研究課題/領域番号 |
18K11557
|
研究機関 | 京都産業大学 |
研究代表者 |
宮森 恒 京都産業大学, 情報理工学部, 教授 (90287988)
|
研究期間 (年度) |
2018-04-01 – 2023-03-31
|
キーワード | マルチモーダル対話 / 内部状態推定 / ファクトチェック支援 / 統計データ / 再ランキング / 手話生成 / 日本手話 / 3D動作 |
研究実績の概要 |
まず、テキストから視覚的要素を連想する能力については、感情をはじめとするマルチモーダル情報を利用する対話システムを対象とし、その内部状態を推定することに取り組んだ。マルチモーダル対話コーパスHazumiを用いて、様々な手法を用いて内部状態を推定した。その結果、k-NNを用いることで、従来の最良手法であるDNNによる推定精度をわずかではあるが上回ることを確認した。 次に、図表と文脈を関係付ける能力については、ファクトチェック支援のための統計データ検索タスクに関しての研究成果を論文誌、国際会議にて発表した。また、これまでの提案手法の改善に取り組んだ。具体的には、FT-Transformerによる再ランキング手法の性能を検証した。実験の結果、先行研究で最良の結果を示したデータ補強を用いる手法には及ばなかった。 また、把握した内容を説明する能力については、テキストから3D手話動作系列を生成する問題に取り組んだ。具体的には、テキストと手話動作系列間のマッピングをEnd-to-endで直接学習するPTSLPモデルに対し、日本手話言語データセットKoSignから構築された様々なデータを適用し、その性能を検証した。実験では、定量評価だけでなく、複数名の手話母語者の協力を得て定性評価を実施した。その結果、関節位置の取得方法が同じなら、単語を生成する場合、フレームレートが高くなるとその分誤差が累積し、フレームレートが低い方がより良好な結果を出した。一方、対話を生成する場合、フレームレートが高い場合でも誤差の累積がそれほど起こらず、より良好な結果となった。これは、PTSLPが対話のようにある程度長い系列を扱う場合、より優れた性能を発揮することを示唆している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
まず、テキストから視覚的要素を連想する能力については、当初の計画に加え、マルチモーダル対話の内部状態推定を通して分析を進めているため。 次に、図表と文脈を関係付ける能力については、当初の計画通り、統計データを用いたファクトチェック支援のための統計データ検索タスクについて成果をまとめ、その改善手法についても検証を進めているため。 最後に、把握した内容を説明する能力については、当初の計画に加え、マルチモーダルな対話を可能とするテキストから日本手話の3D動作を生成する手法について検証を進めているため。
|
今後の研究の推進方策 |
まず、テキストから視覚的要素を連想する能力については、テキストから具体的な画像を生成するモデルを構築することで視覚的要素の連想能力の評価につなげることを目指す。 次に、図表と文脈を関係付ける能力については、現在のモデルを改良するか新たなモデルを構築することで、より的確に統計データを取得し、図表の傾向やテキスト生成につなげられることを目指す。 最後に、把握した内容を説明する能力については、特定の状況を想定したマルチモーダル対話システムの性能分析や課題の明確化などについて検討を進める必要がある。
|
次年度使用額が生じた理由 |
新型コロナウィルス感染拡大のため、参加予定だった学会の現地開催が中止となり、当初予定していた出張旅費が未使用となり、残額が発生したため。追加実験の実施や研究成果発表等に伴う学会参加、論文投稿などに充てる予定である。
|