Publicly Offered Research
Grant-in-Aid for Scientific Research on Innovative Areas (Research in a proposed research area)
本研究の目的は,人間とエージェントが対話を通じて実環境中に存在する未知物体の情報を獲得・学習し,対話継続可能とするシステムの構築である.近年の深層学習をはじめとした機械学習の進展は, 人間とエージェントが自然な対話を行うことを可能にしつつある.しかし,実環境において知識共有や獲得を目的とした対話の実現には,エージェント自身が知らない事実が何であるかを知ること,適切な質問の生成,人の回答を理解し,再学習に利用することが必要となるが,いずれも困難な問題であるため未だ実現に至っていない.本研究課題では,これらの本質的な問題解決に取り組んでいく.
本研究の目的は,人間とエージェントが対話を通じて実環境中に存在する未知物体の情報を獲得・学習し,対話継続可能とするシステムの構築である.近年の深層学習をはじめとした機械学習の進展は, 人間とエージェントが自然な対話を行うことを可能にしつつある.しかし,実環境において知識共有や獲得を目的とした対話の実現には,エージェント自身が実世界において知らない事象が何であるかを知ること,知らない事象に対する知識獲得のための適切な質問の生成すること,人間からの回答を理解し,再学習に利用することで知識として定着させることが必要となるが,いずれも困難な問題であるため未だ実現に至っていない.そこで本研究課題では,これらの本質的な問題解決に取り組んでいく.本年度は,視覚的質問応答(VQA)のためのサブ質問の生成課題に特に取り組んだ.従来のVQAモデルは,実世界の知識に関する推論を必要とする問題において,間違った推論を行う傾向がある.このような問題を解決するために本研究では,正しい推論に有用な補助的な知覚情報を積極的に獲得するための質問を生成する新しいVQAモデルを提案した.具体的には,本モデルは,1)質問に回答するためのVQAモデル,2)質問を生成するための視覚的質問生成(VQG)モデル,3)生成された質問が元の質問に答えるために有用な情報をどれだけ含んでいるかを推定する情報スコアモデルから構成される.VQGモデルは,情報スコアモデルから得られる情報量を最大化するように学習させることで,元の質問の回答に関する情報をできるだけ多く含むサブ質問を生成する.生成されたサブ質問とその回答を付加情報としてVQAモデルに入力することで,サブ質問を利用しないベースラインモデルよりも正確に元の質問に対する回答を予測できることが実験により示された.
令和3年度が最終年度であるため、記入しない。
All 2022 2021 2020
All Journal Article (6 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 6 results, Open Access: 6 results)
The 1st International Workshop on Multimodal Understanding for the Web and Social Media (MUWS), co-located with The WebConf (WWW) 2022
Volume: -
5th MUltimodal Learning and Applications Workshop (MULA 2022) in conjunction with CVPR 2022
The First Workshop on Intelligent and Interactive Writing Assistants (In2Writing)
Workshop on Text2Story co-located with the 43rd European Conference on Information Retrieval (ECIR 2021)
Volume: 2860 Pages: 65-69
Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops
Volume: 1 Pages: 4091-4099
10.1109/cvprw50498.2020.00484
Proceedings of the First International Workshop on Natural Language Processing Beyond Text
Volume: - Pages: 51-59
10.18653/v1/2020.nlpbt-1.6