Project Area | Analysis and synthesis of deep SHITSUKAN information in the real world |
Project/Area Number |
20H05952
|
Research Category |
Grant-in-Aid for Transformative Research Areas (A)
|
Allocation Type | Single-year Grants |
Review Section |
Transformative Research Areas, Section (IV)
|
Research Institution | Tohoku University |
Principal Investigator |
岡谷 貴之 東北大学, 情報科学研究科, 教授 (00312637)
|
Co-Investigator(Kenkyū-buntansha) |
菅沼 雅徳 東北大学, 情報科学研究科, 助教 (00815813)
鈴木 潤 東北大学, データ駆動科学・AI教育研究センター, 教授 (80396150)
劉 星 東北大学, 情報科学研究科, 特任助教 (60870095)
|
Project Period (FY) |
2020-11-19 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥93,730,000 (Direct Cost: ¥72,100,000、Indirect Cost: ¥21,630,000)
Fiscal Year 2024: ¥17,290,000 (Direct Cost: ¥13,300,000、Indirect Cost: ¥3,990,000)
Fiscal Year 2023: ¥18,200,000 (Direct Cost: ¥14,000,000、Indirect Cost: ¥4,200,000)
Fiscal Year 2022: ¥18,200,000 (Direct Cost: ¥14,000,000、Indirect Cost: ¥4,200,000)
Fiscal Year 2021: ¥17,290,000 (Direct Cost: ¥13,300,000、Indirect Cost: ¥3,990,000)
Fiscal Year 2020: ¥22,750,000 (Direct Cost: ¥17,500,000、Indirect Cost: ¥5,250,000)
|
Keywords | 質感 / マルチモーダルAI / 言語モデル / 深層学習 / 人工知能 / コンピュータビジョン / 自然言語 / 画像と言語 / 質感認識 / 画像理解 / 自然言語処理 |
Outline of Research at the Start |
質感を始めとする多様な抽象概念の表現を、人と同じように認識可能なAIシステムの実現を目指す。質感は認知の内容を言語化・定量化しづらく、教師あり学習のためのラベル付けが困難であり,さらにその認知が文脈に依存するため、包括的画像理解の問題として捉える必要がある。これらの課題を解決するため、画像理解のタスクの実行性能を現在より一層向上させた上で、ネットワーク内部の表現の抽出を行う方法を確立し、上の目標達成を目指す。
|
Outline of Annual Research Achievements |
本計画の研究目的は、質感を始めとする多様な抽象概念の表現を、人と同じように認識可能なAIシステムを実現することである.本年度においては、年度初めに定めた研究実施計画に記載通り、3つの研究項目に取り組んだ.第1の項目「DNNによる画像理解の性能向上」は、「人に近い水準で画像理解を実行できるニューラルネットワーク」の実現を目指したものである.最近の分野の動向は、モデル及び学習データを大規模化することで性能向上を目指すものとなっており、研究に要する計算機資源が莫大で、大学の研究室で研究できるレベルを超えつつある.そのような現状を踏まえ、軽量かつ高性能な画像記述手法を開発した.この手法(GRITと命名)は、従来手法の20分の1のデータセットで、同等の記述性能を、しかも5倍早い計算時間で達成できる.成果は国際会議ECCV2022にて発表した.第2の研究項目「質感を含む比喩表現を扱える画像記述手法の構築」については、分野で初めて、比喩表現を含む画像記述の問題を定式化し、ベンチマークとなるデータセット並びに評価手法を開発した.具体的には、既存の複数の画像記述データセットを分析し、その中から比喩表現を含む記述例を抽出し、新たなデータセットを構築した.また、OpenAIのマルチモーダルモデルCLIPをもとに、記述性能の評価手法を提案し、また、今後の研究のベースラインとなる記述手法を開発した.以上の成果は国際会議ACCV2022にて発表した.第3の研究項目「画像理解を行うDNNの内部表現の分析」については、絵画に対する人の感情を扱った既存のデータセット(ArtEmis)を用いて、絵画の画像を入力に人の感情を予測する手法を研究した.いくつかの知見が得られ、現在解析中である.次年度引き続き研究を継続してゆく.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究実績の概要に記した通り、複数のインパクトのある成果を挙げることができたため.ただし、年度初めから画像生成AIが、年度後半には大規模言語モデルが大きな発展を遂げ、学術界だけでなく世間でもよく認知されるようになった.これら生成AIは、本研究計画のいくつかの目標と重複するところがあり、今後の計画の修正を検討することになった.当該年度においては、当初の予定通り研究を進めることができ、進捗もその範囲で順調なものとなった.
|
Strategy for Future Research Activity |
当該年度中に、生成AIが大きな発展を遂げたが、その内容は本研究課題に大きな意味を持つこととなる.まず,いくつかの項目と深く関係があり、今後の研究計画と方法の一部を見直すこととなった.具体的には,当初目標の重要な部分を占めていた、画像理解AIの性能向上という研究課題については,生成AIの発展によって大きく前進したと言える.大規模言語モデルをいかに本課題に取り込み,研究目標の達成に利用できるかが鍵となる.また画像生成(text-to-image生成)AIが実現している,画像と言語のマルチモーダル特徴表現は,本研究計画が実現を目指していたものに近い性質を持つ.これらを踏まえ,様々な取り組み方を当該年度においても検討してきた.現在,そのいくつかを実施しているところであるが,次年度においても引き続き,著しい速度でさらに発展しつつある生成AIの開発動向を注視しつつ,ゼロベースで研究方法と進め方について検討を行う予定である.
|