Project/Area Number |
23K19971
|
Research Category |
Grant-in-Aid for Research Activity Start-up
|
Allocation Type | Multi-year Fund |
Review Section |
1001:Information science, computer engineering, and related fields
|
Research Institution | The University of Tokyo |
Principal Investigator |
上原 康平 東京大学, 先端科学技術研究センター, 助教 (10985352)
|
Project Period (FY) |
2023-08-31 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000)
Fiscal Year 2024: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
Keywords | 画像質問生成 / 画像認識 / 自然言語処理 / 言語生成 |
Outline of Research at the Start |
画像に関する質問生成(VQG: Visual Question Generation)とは,与えられた画像についての質問を自動生成するタスクである.VQGでは,記述に誤りを含む質問が生成される問題があるが,本研究では誤りの少ない「信頼できるVQGモデル」を開発することを目指す.この問題点は,従来のVQGモデルが,生成した質問文の「一貫性」を考慮していないことによって発生していたため,本研究では,画像・獲得したい知識に対する一貫性を保証するようなモデルの学習方法を提案する.本研究は,人間との交流を通じて画像に関する知識を学習する知能システムへの重要な一歩となることが期待できる.
|
Outline of Annual Research Achievements |
画像に関する質問生成(VQG; Visual Question Generation)とは,与えられた画像についての質問文を自動で生成するタスクである.従来のVQGに関する研究では,画像の内容と整合しない「信頼できない」質問文が生成されてしまうという問題があった.このような信頼できない質問文が生成されてしまうと,回答者に対して混乱を引き起こし,コミュニケーションの失敗を招いてしまう.そこで,画像の内容と,生成される質問文が一貫性をもつような質問文が生成されることを目指して研究に取り組んだ. 本年は,画像から質問文を生成するためのベースとなる大規模なマルチモーダルモデルの構築を行った.ここでのマルチモーダルモデルは,画像と指示文を入力とし,適切なテキストを生成するモデルのことである.近年の大規模なテキスト生成モデルに関する研究の急速な発展にともない,画像についての正確な質問文生成のためには,大規模なモデルを大量の画像・テキストのペアデータセットで訓練することは重要である.そこで,まず,一般的な画像・テキスト(画像説明文など)のデータセットで大規模モデルの事前訓練を行い,画像からテキストを生成する汎用的なモデルを構築した.続いて,そのモデルに質問生成能力を持たせるため,独自に構築した質問生成データセットでさらなるモデルの学習を行った.ここで,構築した質問生成データセットは,画像の内容に関する明示的な推論をもとに質問を生成するようなデータセットとなっており,従来の質問生成データセットよりも,画像の内容に具体的にひもづいた質問生成能力獲得に資することが期待される.訓練したモデルの性能を定量的・定性的に確認し,質問生成能力についても一定の成果が得られている.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は,まず,研究の基盤となる大規模マルチモーダルモデルの訓練に取り組んだ.これは,近年研究の進展が著しい分野へ追随し,本研究を進行するうえで十分な性能を持つベースモデルを得る上で重要である.大規模マルチモーダルモデルの構築は,高速な計算機を複数扱う分散計算技術や,モデルアーキテクチャに関する詳細な検討,多様なデータセットの収集・分析など,多様かつ広範な分野の研究を包含するものである.大規模モデルの訓練には,大量のデータを用いた学習が必要であり,工夫なく行うと非常に長期間にわたる訓練が必要となってしまうという問題がある.そこで,本年度の研究では,複数のGPUアクセラレータを搭載した計算機を有効に活用し,またマルチノード環境での分散計算の実装を行った.これにより,当初の想定よりも大幅に効率化したモデルの訓練が可能となった. また,質問生成用のデータセットを新規に構築し,モデルの追加学習を行った.このデータセットは,従来の質問生成用のデータセットとは異なり,質問を生成する根拠となるような明示的な推論ステップが含まれている.そのため,従来のデータセットを用いてモデルを訓練するより,画像の内容と一貫した質問生成を実現することができるようになることが期待される.データセットの構築は作業中の段階であり,本年度構築したものは,規模的には比較的小規模となっている.データセットのスケールの観点では,今後も継続的な発展が必要とは思われる.しかし,現時点においても,先述したマルチモーダルモデルの追加学習に構築したデータセットを用いることで,一定以上の質問生成能力を獲得させることができている.そのため,本年度の研究によって,研究課題の目的を達成するために適切な方向性に向かって研究を進行できていると考えられる.
|
Strategy for Future Research Activity |
今後は,本年度の研究によって得られた知見を活かし,より大規模なデータセットと大規模なモデルでの学習を軸に研究を推進する.データセットの構築に関しては,いままでの研究によって方向性が示されているため,量・質ともに改善しつつデータ収集・作成を行う. また,モデルについても,まずは昨年度構築したマルチモーダルモデルをベースに,基礎性能を向上させるべくモデルパラメータの増加などの検討を行う. また,信頼できる質問生成においては,画像の内容への整合性を,より明示的に考慮する形で質問生成を行うようにすることが望ましい.そこで,画像の内容との一貫性を測ることができるような目的関数を設計し,モデルの学習時に組み込むことを考える.構築中のデータセットは,生成すべき質問だけでなく,画像の内容についての明示的な推論過程のアノテーションも含まれている.このアノテーションを活用することで,上記の目的関数を用いてモデルを訓練するための教師情報を設計し,モデルの学習に活用する.
|