2023 Fiscal Year Research-status Report

画像についての信頼できる質問文生成

Research Project

Project/Area Number	23K19971
Research Institution	The University of Tokyo
Principal Investigator	上原康平東京大学, 先端科学技術研究センター, 助教 (10985352)
Project Period (FY)	2023-08-31 – 2025-03-31
Keywords	画像質問生成
Outline of Annual Research Achievements	画像に関する質問生成（VQG; Visual Question Generation）とは，与えられた画像についての質問文を自動で生成するタスクである．従来のVQGに関する研究では，画像の内容と整合しない「信頼できない」質問文が生成されてしまうという問題があった．このような信頼できない質問文が生成されてしまうと，回答者に対して混乱を引き起こし，コミュニケーションの失敗を招いてしまう．そこで，画像の内容と，生成される質問文が一貫性をもつような質問文が生成されることを目指して研究に取り組んだ．本年は，画像から質問文を生成するためのベースとなる大規模なマルチモーダルモデルの構築を行った．ここでのマルチモーダルモデルは，画像と指示文を入力とし，適切なテキストを生成するモデルのことである．近年の大規模なテキスト生成モデルに関する研究の急速な発展にともない，画像についての正確な質問文生成のためには，大規模なモデルを大量の画像・テキストのペアデータセットで訓練することは重要である．そこで，まず，一般的な画像・テキスト（画像説明文など）のデータセットで大規模モデルの事前訓練を行い，画像からテキストを生成する汎用的なモデルを構築した．続いて，そのモデルに質問生成能力を持たせるため，独自に構築した質問生成データセットでさらなるモデルの学習を行った．ここで，構築した質問生成データセットは，画像の内容に関する明示的な推論をもとに質問を生成するようなデータセットとなっており，従来の質問生成データセットよりも，画像の内容に具体的にひもづいた質問生成能力獲得に資することが期待される．訓練したモデルの性能を定量的・定性的に確認し，質問生成能力についても一定の成果が得られている．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本年度は，まず，研究の基盤となる大規模マルチモーダルモデルの訓練に取り組んだ．これは，近年研究の進展が著しい分野へ追随し，本研究を進行するうえで十分な性能を持つベースモデルを得る上で重要である．大規模マルチモーダルモデルの構築は，高速な計算機を複数扱う分散計算技術や，モデルアーキテクチャに関する詳細な検討，多様なデータセットの収集・分析など，多様かつ広範な分野の研究を包含するものである．大規模モデルの訓練には，大量のデータを用いた学習が必要であり，工夫なく行うと非常に長期間にわたる訓練が必要となってしまうという問題がある．そこで，本年度の研究では，複数のGPUアクセラレータを搭載した計算機を有効に活用し，またマルチノード環境での分散計算の実装を行った．これにより，当初の想定よりも大幅に効率化したモデルの訓練が可能となった．また，質問生成用のデータセットを新規に構築し，モデルの追加学習を行った．このデータセットは，従来の質問生成用のデータセットとは異なり，質問を生成する根拠となるような明示的な推論ステップが含まれている．そのため，従来のデータセットを用いてモデルを訓練するより，画像の内容と一貫した質問生成を実現することができるようになることが期待される．データセットの構築は作業中の段階であり，本年度構築したものは，規模的には比較的小規模となっている．データセットのスケールの観点では，今後も継続的な発展が必要とは思われる．しかし，現時点においても，先述したマルチモーダルモデルの追加学習に構築したデータセットを用いることで，一定以上の質問生成能力を獲得させることができている．そのため，本年度の研究によって，研究課題の目的を達成するために適切な方向性に向かって研究を進行できていると考えられる．
Strategy for Future Research Activity	今後は，本年度の研究によって得られた知見を活かし，より大規模なデータセットと大規模なモデルでの学習を軸に研究を推進する．データセットの構築に関しては，いままでの研究によって方向性が示されているため，量・質ともに改善しつつデータ収集・作成を行う．また，モデルについても，まずは昨年度構築したマルチモーダルモデルをベースに，基礎性能を向上させるべくモデルパラメータの増加などの検討を行う．また，信頼できる質問生成においては，画像の内容への整合性を，より明示的に考慮する形で質問生成を行うようにすることが望ましい．そこで，画像の内容との一貫性を測ることができるような目的関数を設計し，モデルの学習時に組み込むことを考える．構築中のデータセットは，生成すべき質問だけでなく，画像の内容についての明示的な推論過程のアノテーションも含まれている．このアノテーションを活用することで，上記の目的関数を用いてモデルを訓練するための教師情報を設計し，モデルの学習に活用する．
Causes of Carryover	本年度は，次年度以降の研究推進に備えて，事前準備となるような研究を中心に取り組んだ．また，本研究で必要となる研究設備は，大規模計算を実行するための計算機が主であるが，必要な計算機の選定・調達には事前調査が不可欠である．そのため，本年度は，迅速に研究を開始するため，所属研究室の既存の研究設備を活用しつつ研究に取り組んだ．本年度の研究により，本研究を遂行するために必要な計算機の規模や性能についての想定が可能となった．本研究で想定する大規模計算に必要な要件を満たす計算機は非常に性能の高いものとなり，価格も高額なものとなる．また昨今の円安の状況により，計算機の価格が想定より高騰している．よって，次年度使用額をあわせて使用することで，次年度において必要な計算資源の確保を行う．

Research Products
(1 results)

All Journal Article (1 results)

[Journal Article] Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and Visual Question Generation2024
- Author(s)
  Kohei Uehara, Nabarun Goswami, Hanqin Wang, Toshiaki Baba, Kohtaro Tanaka, Tomohiro Hashimoto, Kai Wang, Rei Ito, Takagi Naoya, Ryo Umagami, Yingyi Wen, Tanachai Anakewat, Tatsuya Harada
- Journal Title
  
  arXiv
  
  Volume: - Pages: -