研究課題/領域番号 |
18K11557
|
研究機関 | 京都産業大学 |
研究代表者 |
宮森 恒 京都産業大学, 情報理工学部, 教授 (90287988)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | ビデオ質問応答 / 字幕 / 感情 / 統計データ検索 / 表理解 / ヘッダ抽出 / マルチモーダル / 対話システム |
研究実績の概要 |
まず、テキストから視覚的要素を連想する能力については、これまでとは異なる観点からのアプローチとして、映像と字幕を参照しながら、内容に関する質問とその回答を用いた学習と推論を行うビデオ質問応答タスクに対する検討を進めた。具体的には、字幕の各発話に対して感情を推定し、推定した感情を字幕に付与することで質問応答を行う手法について検討した。画像と言語データに対する事前学習モデルの一つであるHEROモデルをベースに、字幕から推定した感情ラベルで補強したデータを用いて学習と推論を行う質問応答の手法について性能を調査した。その結果、客観的事実を問う質問、主観的内容を問う質問のいずれについても推論内容に違いが見られず、感情ラベルを積極的に利用させる仕組み、および、訓練データ数が十分でなかったことが示唆された。なお、字幕の各発話に対する感情推定については、概ね妥当な結果が得られた。 次に、図表と文脈を関係付ける能力については、ユーザが調べたい内容がクエリとして入力され、政府などが公開している統計データを対象としたランキングを行う統計データ検索タスクに対する検討を進めた。具体的には、被検索文書とクエリをカテゴリ分類し、候補となる被検索文書を絞り込む手法、統計データのメタデータにはない情報を統計表本体から抽出し、被検索文書を補強する手法、および、クエリに類似した拡張語を用いる手法で構成されるランキング手法について検討した。評価実験の結果、カテゴリ検索とデータ補強は、それぞれ、nDCG@10の値を改善し、特に、データ補強のみの手法ではnDCG@10で0.567 と最も良好な値を示すことを確認した。 最後に、把握した内容を説明する能力については、特定の状況を想定したマルチモーダル対話システムの構築に向けての基礎的な検討を進めた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
まず、テキストから視覚的要素を連想する能力については、当初の計画通り、従来モデルの性能を改善するために取り組む必要な改良を図り、基本的な性能を確認しているため。 次に、図表と文脈を関係付ける能力については、当初の計画通り、ユーザの情報要求を満たす統計データを取得するためのランキングモデルを構築し、他の比較手法に比べても有用に機能する基本性能を確認しているため。 最後に、把握した内容を説明する能力については、当初の計画に加え、マルチモーダルな対話を可能とする対話システムについて構築を進めているため。
|
今後の研究の推進方策 |
まず、テキストから視覚的要素を連想する能力については、感情をはじめとするモーダル情報の影響度を高めた訓練方法や、それらをより効果的に作用させるモデルの改善を進めていく必要がある。 次に、図表と文脈を関係付ける能力については、現在のモデルを改良するか新たなモデルを構築することで、より的確に統計データを取得し、図表の傾向やテキスト生成につなげられることを目指す。 最後に、把握した内容を説明する能力については、特定の状況を想定したマルチモーダル対話システムの性能分析や課題の明確化などについて検討を進める必要がある。
|
次年度使用額が生じた理由 |
新型コロナウィルス感染拡大のため、参加予定だった学会の現地開催が中止となり、当初予定していた出張旅費が未使用となり、残額が発生したため。追加実験の実施や研究成果発表等に伴う学会参加、論文投稿などに充てる予定である。
|