研究課題/領域番号 |
18H03264
|
研究機関 | 大阪大学 |
研究代表者 |
中島 悠太 大阪大学, データビリティフロンティア機構, 准教授 (70633551)
|
研究分担者 |
金 進東 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (40536893)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | 質疑応答 / 知識ベース / 深層学習 |
研究実績の概要 |
本研究では、画像や映像などの視覚情報に関する質疑応答(Visual Question Answering; VQA)システムを、より実用性の高いものへと昇華させることを目指し、未知、または少数のサンプルしか含まれないような質問文に対応するために、ウェブなどから得られる知識ベースを利用した推論をVQAのプロセスに組み込むための方法論について研究開発を推進する。本年度は、以下の課題に取り組んだ。 ・課題(A): 知識ベースを利用したVQAシステムでは、いわゆるフレーム問題への対応が必要となる。本研究では、特定のテレビドラマをドメインに設定し、質問と知識をそのドラマの内容のみに限定したデータセットを構築する。本データセットでは問題を4択とし、質問文、正答、誤答(正答以外の回答候補)3件、回答に必要な知識(自然言語により記述)をクラウドソーシングにより収集した。 ・課題(B): 知識ベースを利用したVQAシステムを構築した。本年度は、回答に際してデータセットに含まれる知識に全てを参照できるものとし、質問文と回答候補に基づいて回答に必要な知識を検索して正答の選択に利用する。モデルとして、深層学習に基づくものを利用し、人の正答率や様々なベースラインモデルと比較した。 ・課題(C): 本研究では、知識ベースとして知識グラフの利用を検討する。知識グラフは概念間の関係を表現するもので、知識ベースの質疑応答では広く利用される。本課題では、絵画に関する種々の識別問題を例題として、絵画に関する様々な知識を知識グラフにより表現して識別性能を向上させる方法論・モデルを構築し、Multi-task learningや個別の識別問題として訓練したベースラインと比較した。 上記に加えて、本研究では長時間の映像を取り扱うことから、映像を映像要約により短時間で表現する映像要約の評価手法についても検討を進めた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
2018年度の進捗は以下の通りである。 ・課題(A): クラウドソーシングによるデータセットの収集では、45分程度のドラマ207本について、質問文・回答候補・知識の組24,282件が得られた。本課題では、知識は映像(視覚情報のみ)と発話内容(字幕テキスト)の一方、もしくは両方に関連するものであり、特に映像に関する知識を要求する質問では半数近くが「who」に関するものであった。 ・課題(B): 課題(A)で構築したデータセットについて、回答候補のみから正答を予測するモデルや、質問文と回答候補をニューラルネットによりベクトル表現に変換したものを利用するモデル、字幕テキストを加えたモデル、映像を加えたモデルに加えて、提案手法として知識を利用するモデルを構築した。回答のみを利用するものについては3割程度、質問文を含むもの、及び映像を加えたものは5割程度、知識を利用するものは7割強の精度が得られた。一方で、当該ドラマをよく視聴する人を対象とした精度の評価では9割程度の精度となっており、本課題で提案したモデルには依然として改善の余地があると考える。 ・課題(C): 識別器の学習において、知識グラフの構造を考慮するモデルを構築し、ベースラインと比較したところ、絵画のテーマ、及び作者を識別するタスクでは知識グラフを利用したモデルが最も高精度となった。一方、年代、及び描画された国に関する識別では、Multi-task learningによるモデルが最も高精度であった。 長時間映像の映像要約手法の評価に関する研究では、既存のデータセットなどで使われる評価手法の問題点を指摘し、新たな評価指標を提案した。
|
今後の研究の推進方策 |
課題(B)で提案した手法では、クラウドソーシングにより得られた自然言語により記述される知識を利用した。本研究では、ウェブなどからの知識の自動収集についても検討することから、まずはより容易であると考えられるテレビドラマ自体(映像と字幕テキスト)から、クラウドソーシングにより得られた知識と同様の知識を抽出することを考える。その上で、ウェブのスクレイピングにより、関連する知識を自動獲得する方法論についても検討を開始する。また、より広く知識を利用した画像・映像に関する質疑応答の性能向上を目指し、課題(A)で得られたデータセット以外の既存のデータセットにも適用可能なモデルの構築を進める。
|