2019 Fiscal Year Annual Research Report
Visual Question Answering System with a Knowledge Base
Project/Area Number |
18H03264
|
Research Institution | Osaka University |
Principal Investigator |
中島 悠太 大阪大学, データビリティフロンティア機構, 准教授 (70633551)
|
Co-Investigator(Kenkyū-buntansha) |
金 進東 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (40536893)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 質疑応答 / 知識ベース / 深層学習 |
Outline of Annual Research Achievements |
知識に基づく視覚情報に関する質疑応答(Visual Question Answering: VQA)の実現を目指して、まずデータセットの構築を実施した。このデータセットは、テレビドラマから抽出された短時間の映像クリップ(発話内容に関する字幕付き)、そのドラマに関する知識を持たなければ回答できず、かつ映像クリップの内容に関連する質問文、またその質問文に対する回答候補4件と、正答、さらに回答に必要となる知識(自然言語テキスト)により構成される。データセットの構築にはクラウドソーシングサービスを利用し、24,282件のデータを収集した。これは映像に関する知識を要求するデータセットとしては最大規模となる。また、このデータセットを利用して、知識ベースを利用する質疑応答システムの基礎的手法を構築した。この手法では、クラウドソーシングにより得られた回答に必要となる知識をまとめて知識ベースとし、映像クリップ、字幕、質問文、回答候補が入力されると、知識ベースから必要な知識を検索して回答に利用する。提案手法の正答率は65%、既存手法では最も正答率の高いモデルで52%であることから、提案手法の有効性が示せたと考える。一方で、当該のドラマを視聴したことがない人、ある人の正答率をクラウドソーシングにより評価したところ、それぞれ75%と90%であることから、モデルとしては改善の余地が見られる。 また、質疑応答の問題文などと知識ベースの間の表記の違いを吸収するためのパラフレーズ検出についても、F1スコアで87%の精度を達成可能であることを実験的に示した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究で目標とする知識に基づく質疑応答の実現に対して、すでに基盤となる技術の開発が完了しており、またパラフレーズ検出についても高い精度を実現した。知識のグラフによる表現とDBpediaなどを外部知識として利用するシステムの構築など、当初予定と前後しているものの、概ね順調に進展しているものと考える。
|
Strategy for Future Research Activity |
今後の計画として、下記を考える。 (1)自然言語を外部知識として利用する映像に関する質疑応答: 今年度は、知識ベースとしてデータセット収集時に合わせて収集した回答に必要な知識(通常は1文)をまとめたものを利用した。通常の応用では、回答に紐づく知識は必ずしも入手可能であるとは言えないことから、次年度はインターネット上で公開されたテレビドラマの各話に関するサマリーなどを知識ベースとして用いることを考える。この場合、入力される映像クリップ、質問、回答候補などから、対応するサマリーを検索し、さらに必要に応じてその中の一部を抽出するなどの操作が必要になる。これは、知識ベースを利用する映像に関する質疑応答システムをより実用に近づける取り組みであると考える。 (2)知識グラフを利用した質疑応答: 知識ベースとしては、自然言語テキストによる表現に加えて、DBpediaに代表されるデータベースのように、知識グラフとして構造化された表現も考えられ、すでに広く整備されている。そこで、視覚情報に関する質疑応答で、知識ベースとして知識グラフを利用するシステムを構築する。DBpediaなどの既存の知識ベースの活用に加えて、特にテレビドラマに関する質疑応答については、映像自体からの知識の獲得についても検討する。 (3)外部知識の置き換えに関する初期的検討: 上記(1)と(2)、いずれについても知識ベースを検索して利用することから、利用時の置き換えの可能性が考えられる。例えば、特定のドラマシリーズに関する知識ベースを別のドラマシリーズのものに置き換えるなどにより、異なるドメインの質問に対応できる可能性がある。そこで、知識ベースの置き換えの可能性を検証するために、まずは(1)のシステムを対象に実際に試行し、問題点を確認する。
|