研究課題/領域番号 |
18H03264
|
研究機関 | 大阪大学 |
研究代表者 |
中島 悠太 大阪大学, データビリティフロンティア機構, 准教授 (70633551)
|
研究分担者 |
金 進東 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (40536893)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | 質疑応答 / 知識ベース / 深層学習 |
研究実績の概要 |
視覚情報に関する質疑応答(VQA)において、回答の際に知識を要求する質問にも対応可能なシステムの実現を目指し、本年度は主に、(1)映像を記述する特徴量(映像表現)の検討、(2)VQAの基盤となるモデルの検討、の2項目について研究を行った。 (1)映像を記述する特徴量(映像表現)の検討: 近年、映像や画像に関連する深層学習モデルにおいて、映像や画像が十分に利用できていないという問題が明らかになってきている。これは、本研究で対象とするVQAを含む、映像・画像と自然言語を入力とするモデルでも顕著に見られる。本研究でも、映像と自然言語を入力とする自然言語クエリによる部分映像検索を例として、この問題を明らかにした。そこで、特に映像のよりよい利用方法の検討を目的として、現在までの視覚情報をエンコードした高次元のベクトルに代えて、自然言語を基盤とする新しい映像の表現を検討した。これにより、現在自然言語処理分野で広く利用されているTransformerに基づくモデルを利用した意味内容のモデル化が可能となる。まず、映像からオブジェクト検出などによって得られたオブジェクトのラベル自体をモデルの入力として利用する方法を考案し、事前学習したモデルのうち、どれが優れているかを検討した。続いて、本研究で構築したデータセットについて、オブジェクト検出などの結果からルールベースで自然言語の文章を生成し、映像の表現として利用する方法を検討した。結果、本研究で提案した既存モデルに比べ高い性能が得られることがわかった。 (2)VQAの基盤となるモデルの検討: VQAでは、入力される映像や自然言語に加えて、それらのデータをどのように扱うかが重要となる。特に、比較的長い依存関係を取り扱うモデルの検討のために、笑いの検出を例題として研究開発を実施した。また、質問と回答を同時に生成するアプローチについても検討した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
一部計画に前後するところがあるものの、本研究の主な目的である、知識を必要とする映像に関する質疑応答については、すでに十分な検討が進んでおり、順調であると言える。
|
今後の研究の推進方策 |
今後は、下記の課題に取り組み、知識を必要とする映像に関する質疑応答のための一つのシステムとしての完成を目指す。 (1)転移学習的アプローチによる外部知識の置き換え: 外部知識は自然言語テキストやグラフとして表現されるものであり、簡単に置き換え可能である。一方で、これまでに本研究で構築したニューラルネットワークを利用した質疑応答システムでは、外部知識にアクセス可能であるという前提でネットワークの訓練を行うことから、得られたネットワークは対応する外部知識に特化したものとなる。そこで、本研究では、すでに構築したデータセットと同様のデータセットを別のテレビドラマで新たに構築し、転移学習的なアプローチによって、外部知識の置き換え(自然言語テキストの集合を別の自然言語テキストの集合に置き換えるなど)によるドメインの適応を検討する。 (2)知識の自動獲得: 本研究で提案するアプローチでは、外部知識が与えられることを想定するが、質疑応答のドメインによってはこのような外部知識が存在しない場合がありうる。そこで、テレビドラマなどを想定し、字幕などのテキスト、映像、さらにインターネット上の関連ウェブサイトなどから、知識を獲得する方法を模索する。これは、質疑応答システムが人間と同じように知識を獲得することに相当するとも考えられる挑戦的な課題であるといえる。
|