深奥質感のマルチモーダル深層モデルの確立

Planned Research

Project Area	Analysis and synthesis of deep SHITSUKAN information in the real world
Project/Area Number	20H05952
Research Category	Grant-in-Aid for Transformative Research Areas (A)
Allocation Type	Single-year Grants
Review Section	Transformative Research Areas, Section (IV)
Research Institution	Tohoku University
Principal Investigator	岡谷貴之東北大学, 情報科学研究科, 教授 (00312637)
Co-Investigator(Kenkyū-buntansha)	菅沼雅徳東北大学, 情報科学研究科, 助教 (00815813) 鈴木潤東北大学, データ駆動科学・AI教育研究センター, 教授 (80396150) 劉星東北大学, 情報科学研究科, 特任助教 (60870095)
Project Period (FY)	2020-11-19 – 2025-03-31
Project Status	Granted (Fiscal Year 2024)
Budget Amount *help	¥93,730,000 (Direct Cost: ¥72,100,000、Indirect Cost: ¥21,630,000) Fiscal Year 2024: ¥17,290,000 (Direct Cost: ¥13,300,000、Indirect Cost: ¥3,990,000) Fiscal Year 2023: ¥18,200,000 (Direct Cost: ¥14,000,000、Indirect Cost: ¥4,200,000) Fiscal Year 2022: ¥18,200,000 (Direct Cost: ¥14,000,000、Indirect Cost: ¥4,200,000) Fiscal Year 2021: ¥17,290,000 (Direct Cost: ¥13,300,000、Indirect Cost: ¥3,990,000) Fiscal Year 2020: ¥22,750,000 (Direct Cost: ¥17,500,000、Indirect Cost: ¥5,250,000)
Keywords	質感 / マルチモーダルAI / 言語モデル / 深層学習 / 人工知能 / コンピュータビジョン / 自然言語 / 画像と言語 / 質感認識 / 画像理解 / 自然言語処理
Outline of Research at the Start	質感を始めとする多様な抽象概念の表現を、人と同じように認識可能なAIシステムの実現を目指す。質感は認知の内容を言語化・定量化しづらく、教師あり学習のためのラベル付けが困難であり，さらにその認知が文脈に依存するため、包括的画像理解の問題として捉える必要がある。これらの課題を解決するため、画像理解のタスクの実行性能を現在より一層向上させた上で、ネットワーク内部の表現の抽出を行う方法を確立し、上の目標達成を目指す。
Outline of Annual Research Achievements	本計画の研究目的は、質感を始めとする多様な抽象概念の表現を、人と同じように認識可能なAIシステムを実現することである．本年度においては、年度初めに定めた研究実施計画に記載通り、3つの研究項目に取り組んだ．第1の項目「DNNによる画像理解の性能向上」は、「人に近い水準で画像理解を実行できるニューラルネットワーク」の実現を目指したものである．最近の分野の動向は、モデル及び学習データを大規模化することで性能向上を目指すものとなっており、研究に要する計算機資源が莫大で、大学の研究室で研究できるレベルを超えつつある．そのような現状を踏まえ、軽量かつ高性能な画像記述手法を開発した．この手法（GRITと命名）は、従来手法の20分の1のデータセットで、同等の記述性能を、しかも5倍早い計算時間で達成できる．成果は国際会議ECCV2022にて発表した．第2の研究項目「質感を含む比喩表現を扱える画像記述手法の構築」については、分野で初めて、比喩表現を含む画像記述の問題を定式化し、ベンチマークとなるデータセット並びに評価手法を開発した．具体的には、既存の複数の画像記述データセットを分析し、その中から比喩表現を含む記述例を抽出し、新たなデータセットを構築した．また、OpenAIのマルチモーダルモデルCLIPをもとに、記述性能の評価手法を提案し、また、今後の研究のベースラインとなる記述手法を開発した．以上の成果は国際会議ACCV2022にて発表した．第3の研究項目「画像理解を行うDNNの内部表現の分析」については、絵画に対する人の感情を扱った既存のデータセット（ArtEmis）を用いて、絵画の画像を入力に人の感情を予測する手法を研究した．いくつかの知見が得られ、現在解析中である．次年度引き続き研究を継続してゆく．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 研究実績の概要に記した通り、複数のインパクトのある成果を挙げることができたため．ただし、年度初めから画像生成AIが、年度後半には大規模言語モデルが大きな発展を遂げ、学術界だけでなく世間でもよく認知されるようになった．これら生成AIは、本研究計画のいくつかの目標と重複するところがあり、今後の計画の修正を検討することになった．当該年度においては、当初の予定通り研究を進めることができ、進捗もその範囲で順調なものとなった．
Strategy for Future Research Activity	当該年度中に、生成AIが大きな発展を遂げたが、その内容は本研究課題に大きな意味を持つこととなる．まず，いくつかの項目と深く関係があり、今後の研究計画と方法の一部を見直すこととなった．具体的には，当初目標の重要な部分を占めていた、画像理解AIの性能向上という研究課題については，生成AIの発展によって大きく前進したと言える．大規模言語モデルをいかに本課題に取り込み，研究目標の達成に利用できるかが鍵となる．また画像生成（text-to-image生成）AIが実現している，画像と言語のマルチモーダル特徴表現は，本研究計画が実現を目指していたものに近い性質を持つ．これらを踏まえ，様々な取り組み方を当該年度においても検討してきた．現在，そのいくつかを実施しているところであるが，次年度においても引き続き，著しい速度でさらに発展しつつある生成AIの開発動向を注視しつつ，ゼロベースで研究方法と進め方について検討を行う予定である．

Report

(3 results)

Research Products
(18 results)

All 2023 2022 2021

All Journal Article (10 results) (of which Int'l Joint Research: 5 results, Peer Reviewed: 10 results, Open Access: 10 results) Presentation (7 results) (of which Invited: 6 results) Book (1 results)

[Journal Article] Bright as the Sun: In-depth Analysis of Imagination-Driven Image Captioning2023
- Author(s)
  Tran Huyen Thi Thanh, Okatani Takayuki
- Journal Title
  
  Proceedings of Asian Conference on Computer Vision
  
  Volume: - Pages: 675-691
- DOI
  10.1007/978-3-031-26316-3_40
- ISBN
  9783031263156, 9783031263163
- Related Report
  2022 Annual Research Report
- Peer Reviewed / Open Access
[Journal Article] GRIT: Faster and Better Image Captioning Transformer Using Dual Visual Features2022
- Author(s)
  Nguyen Van-Quang, Suganuma Masanori, Okatani Takayuki
- Journal Title
  
  Proceedings of European Conference on Computer Vision
  
  Volume: - Pages: 167-184
- DOI
  10.1007/978-3-031-20059-5_10
- ISBN
  9783031200588, 9783031200595
- Related Report
  2022 Annual Research Report
- Peer Reviewed / Open Access
[Journal Article] Symmetry-aware Neural Architecture for Embodied Visual Exploration2022
- Author(s)
  Liu Shuang、Okatani Takayuki
- Journal Title
  
  Proceedings of Computer Vision and Pattern Recognition
  
  Volume: - Pages: 17221-17230
- DOI
  10.1109/cvpr52688.2022.01673
- Related Report
  2022 Annual Research Report
- Peer Reviewed / Open Access
[Journal Article] Bridging the Gap from Asymmetry Tricks to Decorrelation Principles in Non-contrastive Self-supervised Learning2022
- Author(s)
  Kang-Jun Liu, Masanori Suganuma, Takayuki Okatani
- Journal Title
  
  Advances in Neural Information Processing Systems 35 (NeurIPS 2022)
  
  Volume: - Pages: 19824-19835
- Related Report
  2022 Annual Research Report
- Peer Reviewed / Open Access
[Journal Article] Symbolizing Visual Features for Pre-training with Unlabeled Images2022
- Author(s)
  Yuichi Kamata, Moyuru Yamada, Keizo Kato, Akira Nakagawa, Takayuki Okatani
- Journal Title
  
  Proceedings of 6th Asian Conference of Pattern Recognition 2021
  
  Volume: - Pages: 490-503
- DOI
  10.1007/978-3-031-02444-3_37
- ISBN
  9783031024436, 9783031024443
- Related Report
  2022 Annual Research Report
- Peer Reviewed / Open Access
[Journal Article] Look Wide and Interpret Twice: Improving Performance on Interactive Instruction-following Tasks2021
- Author(s)
  Van-Quang Nguyen, Masanori Suganuma, Takayuki Okatani
- Journal Title
  
  Proceedings of 30th International Joint Conference on Artificial Intelligence (IJCAI-21)
  
  Volume: - Pages: 923-930
- DOI
  10.24963/ijcai.2021/128
- Related Report
  2021 Annual Research Report 2020 Annual Research Report
- Peer Reviewed / Open Access / Int'l Joint Research
[Journal Article] Matching in the Dark: A Dataset for Matching Image Pairs of Low-light Scenes2021
- Author(s)
  Wenzheng Song, Masanori Suganuma, Xing Liu, Noriyuki Shimobayashi, Daisuke Maruta, Takayuki Okatani
- Journal Title
  
  Proceedings of International Conference on Computer Visionツ?2021
  
  Volume: - Pages: 6009-6018
- DOI
  10.1109/iccv48922.2021.00597
- Related Report
  2021 Annual Research Report 2020 Annual Research Report
- Peer Reviewed / Open Access / Int'l Joint Research
[Journal Article] Progressive and Selective Fusion Network for High Dynamic Range Imaging2021
- Author(s)
  Qian Ye, Jun Xiao, Kin-Man Lam, Takayuki Okatani
- Journal Title
  
  Proceedings of ACM Multimedia 2021
  
  Volume: - Pages: 5290-5297
- DOI
  10.1145/3474085.3475651
- Related Report
  2021 Annual Research Report 2020 Annual Research Report
- Peer Reviewed / Open Access / Int'l Joint Research
[Journal Article] Learning to Bundle-adjust: A Graph Network Approach to Faster Optimization of Bundle Adjustment for Vehicular SLAM2021
- Author(s)
  Tetsuya Tanaka, Yukihiro Sasagawa, Takayuki Okatani
- Journal Title
  
  Proceedings of International Conference on Computer Vision 2021
  
  Volume: - Pages: 6320-6329
- DOI
  10.1109/iccv48922.2021.00619
- Related Report
  2021 Annual Research Report
- Peer Reviewed / Open Access / Int'l Joint Research
[Journal Article] Symbolizing Visual Features for Pre-training with Unlabeled Images,2021
- Author(s)
  Yuichi Kamata, Moyuru Yamada, Keizo Kato, Akira Nakagawa and Takayuki Okatani
- Journal Title
  
  Proceedings of Asian Conference on Pattern Recognition
  
  Volume: -
- Related Report
  2021 Annual Research Report
- Peer Reviewed / Open Access / Int'l Joint Research
[Presentation] 画像を理解し，その内容を人と共有できるAIの実現へ向けて2022
- Author(s)
  岡谷貴之
- Organizer
  土木学会講演会
- Related Report
  2022 Annual Research Report
- Invited
[Presentation] 画像を扱うAI(≒深層学習)に関する研究2022
- Author(s)
  岡谷貴之
- Organizer
  仙台X-Tech
- Related Report
  2022 Annual Research Report
- Invited
[Presentation] 深層学習の現在と近未来:深奥質感からAIの今後を考える2021
- Author(s)
  岡谷貴之
- Organizer
  新道路成果報告会AI活用
- Related Report
  2021 Annual Research Report 2020 Annual Research Report
- Invited
[Presentation] 深層学習の現在:問題解決の方法論として2021
- Author(s)
  岡谷貴之
- Organizer
  日本天文学会
- Related Report
  2021 Annual Research Report 2020 Annual Research Report
- Invited
[Presentation] ディープラーニングの課題: 現場からフロンティアまで2021
- Author(s)
  岡谷貴之
- Organizer
  日本機会学会
- Related Report
  2021 Annual Research Report 2020 Annual Research Report
- Invited
[Presentation] 深層学習(≒AI)の現在と近い将来2021
- Author(s)
  岡谷貴之
- Organizer
  精密工学会
- Related Report
  2021 Annual Research Report 2020 Annual Research Report
- Invited
[Presentation] 言語による画像理解とそれに基づく行動の生成まで2021
- Author(s)
  岡谷貴之
- Organizer
  CRESTセミナー
- Related Report
  2021 Annual Research Report
[Book] 深層学習　改訂第2版2022
- Author(s)
  岡谷貴之
- Total Pages
  384
- Publisher
  講談社
- ISBN
  4065133327
- Related Report
  2022 Annual Research Report 2021 Annual Research Report

深奥質感のマルチモーダル深層モデルの確立

Principal Investigator

岡谷 貴之 東北大学, 情報科学研究科, 教授 (00312637)

¥93,730,000 (Direct Cost: ¥72,100,000、Indirect Cost: ¥21,630,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Bright as the Sun: In-depth Analysis of Imagination-Driven Image Captioning2023

Author(s)

Journal Title

DOI

ISBN

Related Report

[Journal Article] GRIT: Faster and Better Image Captioning Transformer Using Dual Visual Features2022

Author(s)

Journal Title

DOI

ISBN

Related Report

[Journal Article] Symmetry-aware Neural Architecture for Embodied Visual Exploration2022

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Bridging the Gap from Asymmetry Tricks to Decorrelation Principles in Non-contrastive Self-supervised Learning2022

Author(s)

Journal Title

Related Report

[Journal Article] Symbolizing Visual Features for Pre-training with Unlabeled Images2022

Author(s)

Journal Title

DOI

ISBN

Related Report

[Journal Article] Look Wide and Interpret Twice: Improving Performance on Interactive Instruction-following Tasks2021

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Matching in the Dark: A Dataset for Matching Image Pairs of Low-light Scenes2021

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Progressive and Selective Fusion Network for High Dynamic Range Imaging2021

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Learning to Bundle-adjust: A Graph Network Approach to Faster Optimization of Bundle Adjustment for Vehicular SLAM2021

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Symbolizing Visual Features for Pre-training with Unlabeled Images,2021

Author(s)

Journal Title

Related Report

[Presentation] 画像を理解し，その内容を人と共有できるAIの実現へ向けて2022

Author(s)

Organizer

Related Report

[Presentation] 画像を扱うAI(≒深層学習)に関する研究2022

Author(s)

Organizer

Related Report

[Presentation] 深層学習の現在と近未来:深奥質感からAIの今後を考える2021

Author(s)

Organizer

Related Report

[Presentation] 深層学習の現在:問題解決の方法論として2021

Author(s)

Organizer

Related Report

[Presentation] ディープラーニングの課題: 現場からフロンティアまで2021

Author(s)

Organizer

Related Report

[Presentation] 深層学習(≒AI)の現在と近い将来2021

岡谷貴之東北大学, 情報科学研究科, 教授 (00312637)

[Book] 深層学習　改訂第2版2022