研究課題/領域番号 |
21K17806
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
品川 政太朗 奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (70897454)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | Vision and Language / Transformer / text-to-image |
研究実績の概要 |
2021年度は、2022年度前半期までの目標として、「課題①:自然言語(単語)とグラフ構造の潜在表現をどのように対応付けるか?」および「課題②:人間には弁別が難しい生成画像をどのように評価するか?」について検討を行った。
課題①に関して、画像にタグ付けされたラベル情報に基づいてグラフ構造を構築し、自然言語からの画像生成モデルを作成して実験を行ったが、現状十分な性能が得られていない。この原因としては、当初予定していたデータセットに含まれる画像やラベル情報に含まれるノイズが大きく影響していることが考えられるため、まず生成対象を絞り、一般物体によるシーン生成において検証を行うことから始める必要性があることが分かった。今後は一般物体によるシーン画像を表現できるグラフ表現であるシーングラフを利用することで、さらに検証を進める予定である。
課題①および課題②に関して、近年盛んに研究が進められているTransformerを利用したモデリングが適当であると考え、そのサーベイと初期検討を行った。サーベイは広範かつ網羅的に行うため、cvpaper.challengeと呼ばれる研究コミュニティにおいて、奈良先端大、産総研、早稲田大など、複数の研究機関から有志を募ってサーベイグループを組織し、TransformerおよびVision and Languageについてのサーベイを実施した。このサーベイの成果は、国内の学会や研究会においてTransformerやVision and Languageの招待講演やチュートリアル講演として2件の発表を行い、また書籍の一章として書籍化を行うことによって国内の研究コミュニティに貢献した。また、研究遂行のための情報収集の一環として国内学会および国際会議に聴講参加し、最新研究の情報収集に努めた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
2021年度は当初想定していたエフォートを確保できず、全体の作業としては当初の予定よりやや遅れが生じた。反面、近年Vision and Languageの研究分野にはこの一年で目覚ましい進展があり、学内外の研究活動を通して十分な情報収集と利用するモデルの検討を行うことができた。 2年目前半期までの目標として、潜在表現の固定のグラフ構造を仮定した上で自然言語を紐づける学習の実験については現在進行中であり、全体の計画の進行に関して大きな問題はないと考えている。
|
今後の研究の推進方策 |
2年目前半期までは、当初の計画通り、潜在表現の固定のグラフ構造を仮定した上で自然言語を紐づける学習の実験を進める予定である。これが済み次第、潜在表現のグラフ構造を学習から自動的に構築する方法についての研究を進める予定である。
|
次年度使用額が生じた理由 |
計画の進行状況の遅延により、評価に利用する人件費・謝金、および旅費が未使用となったため。次年度にはこれらへの利用、もしくはクライドコンピューティングリソースの利用の目的に使用する予定である。
|