• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

深奥質感のマルチモーダル深層モデルの確立

計画研究

研究領域実世界の奥深い質感情報の分析と生成
研究課題/領域番号 20H05952
研究種目

学術変革領域研究(A)

配分区分補助金
審査区分 学術変革領域研究区分(Ⅳ)
研究機関東北大学

研究代表者

岡谷 貴之  東北大学, 情報科学研究科, 教授 (00312637)

研究分担者 菅沼 雅徳  東北大学, 情報科学研究科, 助教 (00815813)
鈴木 潤  東北大学, データ駆動科学・AI教育研究センター, 教授 (80396150)
劉 星  東北大学, 情報科学研究科, 特任助教 (60870095)
研究期間 (年度) 2020-11-19 – 2025-03-31
研究課題ステータス 交付 (2024年度)
配分額 *注記
93,730千円 (直接経費: 72,100千円、間接経費: 21,630千円)
2024年度: 17,290千円 (直接経費: 13,300千円、間接経費: 3,990千円)
2023年度: 18,200千円 (直接経費: 14,000千円、間接経費: 4,200千円)
2022年度: 18,200千円 (直接経費: 14,000千円、間接経費: 4,200千円)
2021年度: 17,290千円 (直接経費: 13,300千円、間接経費: 3,990千円)
2020年度: 22,750千円 (直接経費: 17,500千円、間接経費: 5,250千円)
キーワード質感 / マルチモーダルAI / 言語モデル / 深層学習 / 人工知能 / コンピュータビジョン / 自然言語 / 画像と言語 / 質感認識 / 画像理解 / 自然言語処理
研究開始時の研究の概要

質感を始めとする多様な抽象概念の表現を、人と同じように認識可能なAIシステムの実現を目指す。質感は認知の内容を言語化・定量化しづらく、教師あり学習のためのラベル付けが困難であり,さらにその認知が文脈に依存するため、包括的画像理解の問題として捉える必要がある。これらの課題を解決するため、画像理解のタスクの実行性能を現在より一層向上させた上で、ネットワーク内部の表現の抽出を行う方法を確立し、上の目標達成を目指す。

研究実績の概要

本計画の研究目的は、質感を始めとする多様な抽象概念の表現を、人と同じように認識可能なAIシステムを実現することである.本年度においては、年度初めに定めた研究実施計画に記載通り、3つの研究項目に取り組んだ.第1の項目「DNNによる画像理解の性能向上」は、「人に近い水準で画像理解を実行できるニューラルネットワーク」の実現を目指したものである.最近の分野の動向は、モデル及び学習データを大規模化することで性能向上を目指すものとなっており、研究に要する計算機資源が莫大で、大学の研究室で研究できるレベルを超えつつある.そのような現状を踏まえ、軽量かつ高性能な画像記述手法を開発した.この手法(GRITと命名)は、従来手法の20分の1のデータセットで、同等の記述性能を、しかも5倍早い計算時間で達成できる.成果は国際会議ECCV2022にて発表した.第2の研究項目「質感を含む比喩表現を扱える画像記述手法の構築」については、分野で初めて、比喩表現を含む画像記述の問題を定式化し、ベンチマークとなるデータセット並びに評価手法を開発した.具体的には、既存の複数の画像記述データセットを分析し、その中から比喩表現を含む記述例を抽出し、新たなデータセットを構築した.また、OpenAIのマルチモーダルモデルCLIPをもとに、記述性能の評価手法を提案し、また、今後の研究のベースラインとなる記述手法を開発した.以上の成果は国際会議ACCV2022にて発表した.第3の研究項目「画像理解を行うDNNの内部表現の分析」については、絵画に対する人の感情を扱った既存のデータセット(ArtEmis)を用いて、絵画の画像を入力に人の感情を予測する手法を研究した.いくつかの知見が得られ、現在解析中である.次年度引き続き研究を継続してゆく.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

研究実績の概要に記した通り、複数のインパクトのある成果を挙げることができたため.ただし、年度初めから画像生成AIが、年度後半には大規模言語モデルが大きな発展を遂げ、学術界だけでなく世間でもよく認知されるようになった.これら生成AIは、本研究計画のいくつかの目標と重複するところがあり、今後の計画の修正を検討することになった.当該年度においては、当初の予定通り研究を進めることができ、進捗もその範囲で順調なものとなった.

今後の研究の推進方策

当該年度中に、生成AIが大きな発展を遂げたが、その内容は本研究課題に大きな意味を持つこととなる.まず,いくつかの項目と深く関係があり、今後の研究計画と方法の一部を見直すこととなった.具体的には,当初目標の重要な部分を占めていた、画像理解AIの性能向上という研究課題については,生成AIの発展によって大きく前進したと言える.大規模言語モデルをいかに本課題に取り込み,研究目標の達成に利用できるかが鍵となる.また画像生成(text-to-image生成)AIが実現している,画像と言語のマルチモーダル特徴表現は,本研究計画が実現を目指していたものに近い性質を持つ.これらを踏まえ,様々な取り組み方を当該年度においても検討してきた.現在,そのいくつかを実施しているところであるが,次年度においても引き続き,著しい速度でさらに発展しつつある生成AIの開発動向を注視しつつ,ゼロベースで研究方法と進め方について検討を行う予定である.

報告書

(3件)
  • 2022 実績報告書
  • 2021 実績報告書
  • 2020 実績報告書
  • 研究成果

    (18件)

すべて 2023 2022 2021

すべて 雑誌論文 (10件) (うち国際共著 5件、 査読あり 10件、 オープンアクセス 10件) 学会発表 (7件) (うち招待講演 6件) 図書 (1件)

  • [雑誌論文] Bright as the Sun: In-depth Analysis of Imagination-Driven Image Captioning2023

    • 著者名/発表者名
      Tran Huyen Thi Thanh, Okatani Takayuki
    • 雑誌名

      Proceedings of Asian Conference on Computer Vision

      巻: - ページ: 675-691

    • DOI

      10.1007/978-3-031-26316-3_40

    • ISBN
      9783031263156, 9783031263163
    • 関連する報告書
      2022 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] GRIT: Faster and Better Image Captioning Transformer Using Dual Visual Features2022

    • 著者名/発表者名
      Nguyen Van-Quang, Suganuma Masanori, Okatani Takayuki
    • 雑誌名

      Proceedings of European Conference on Computer Vision

      巻: - ページ: 167-184

    • DOI

      10.1007/978-3-031-20059-5_10

    • ISBN
      9783031200588, 9783031200595
    • 関連する報告書
      2022 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Symmetry-aware Neural Architecture for Embodied Visual Exploration2022

    • 著者名/発表者名
      Liu Shuang、Okatani Takayuki
    • 雑誌名

      Proceedings of Computer Vision and Pattern Recognition

      巻: - ページ: 17221-17230

    • DOI

      10.1109/cvpr52688.2022.01673

    • 関連する報告書
      2022 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Bridging the Gap from Asymmetry Tricks to Decorrelation Principles in Non-contrastive Self-supervised Learning2022

    • 著者名/発表者名
      Kang-Jun Liu, Masanori Suganuma, Takayuki Okatani
    • 雑誌名

      Advances in Neural Information Processing Systems 35 (NeurIPS 2022)

      巻: - ページ: 19824-19835

    • 関連する報告書
      2022 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Symbolizing Visual Features for Pre-training with Unlabeled Images2022

    • 著者名/発表者名
      Yuichi Kamata, Moyuru Yamada, Keizo Kato, Akira Nakagawa, Takayuki Okatani
    • 雑誌名

      Proceedings of 6th Asian Conference of Pattern Recognition 2021

      巻: - ページ: 490-503

    • DOI

      10.1007/978-3-031-02444-3_37

    • ISBN
      9783031024436, 9783031024443
    • 関連する報告書
      2022 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Look Wide and Interpret Twice: Improving Performance on Interactive Instruction-following Tasks2021

    • 著者名/発表者名
      Van-Quang Nguyen, Masanori Suganuma, Takayuki Okatani
    • 雑誌名

      Proceedings of 30th International Joint Conference on Artificial Intelligence (IJCAI-21)

      巻: - ページ: 923-930

    • DOI

      10.24963/ijcai.2021/128

    • 関連する報告書
      2021 実績報告書 2020 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Matching in the Dark: A Dataset for Matching Image Pairs of Low-light Scenes2021

    • 著者名/発表者名
      Wenzheng Song, Masanori Suganuma, Xing Liu, Noriyuki Shimobayashi, Daisuke Maruta, Takayuki Okatani
    • 雑誌名

      Proceedings of International Conference on Computer Visionツ?2021

      巻: - ページ: 6009-6018

    • DOI

      10.1109/iccv48922.2021.00597

    • 関連する報告書
      2021 実績報告書 2020 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Progressive and Selective Fusion Network for High Dynamic Range Imaging2021

    • 著者名/発表者名
      Qian Ye, Jun Xiao, Kin-Man Lam, Takayuki Okatani
    • 雑誌名

      Proceedings of ACM Multimedia 2021

      巻: - ページ: 5290-5297

    • DOI

      10.1145/3474085.3475651

    • 関連する報告書
      2021 実績報告書 2020 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Learning to Bundle-adjust: A Graph Network Approach to Faster Optimization of Bundle Adjustment for Vehicular SLAM2021

    • 著者名/発表者名
      Tetsuya Tanaka, Yukihiro Sasagawa, Takayuki Okatani
    • 雑誌名

      Proceedings of International Conference on Computer Vision 2021

      巻: - ページ: 6320-6329

    • DOI

      10.1109/iccv48922.2021.00619

    • 関連する報告書
      2021 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Symbolizing Visual Features for Pre-training with Unlabeled Images,2021

    • 著者名/発表者名
      Yuichi Kamata, Moyuru Yamada, Keizo Kato, Akira Nakagawa and Takayuki Okatani
    • 雑誌名

      Proceedings of Asian Conference on Pattern Recognition

      巻: -

    • 関連する報告書
      2021 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [学会発表] 画像を理解し,その内容を人と共有できるAIの実現へ向けて2022

    • 著者名/発表者名
      岡谷貴之
    • 学会等名
      土木学会講演会
    • 関連する報告書
      2022 実績報告書
    • 招待講演
  • [学会発表] 画像を扱うAI(≒深層学習)に関する研究2022

    • 著者名/発表者名
      岡谷貴之
    • 学会等名
      仙台X-Tech
    • 関連する報告書
      2022 実績報告書
    • 招待講演
  • [学会発表] 深層学習の現在と近未来:深奥質感からAIの今後を考える2021

    • 著者名/発表者名
      岡谷貴之
    • 学会等名
      新道路成果報告会AI活用
    • 関連する報告書
      2021 実績報告書 2020 実績報告書
    • 招待講演
  • [学会発表] 深層学習の現在:問題解決の方法論として2021

    • 著者名/発表者名
      岡谷貴之
    • 学会等名
      日本天文学会
    • 関連する報告書
      2021 実績報告書 2020 実績報告書
    • 招待講演
  • [学会発表] ディープラーニングの課題: 現場からフロンティアまで2021

    • 著者名/発表者名
      岡谷貴之
    • 学会等名
      日本機会学会
    • 関連する報告書
      2021 実績報告書 2020 実績報告書
    • 招待講演
  • [学会発表] 深層学習(≒AI)の現在と近い将来2021

    • 著者名/発表者名
      岡谷貴之
    • 学会等名
      精密工学会
    • 関連する報告書
      2021 実績報告書 2020 実績報告書
    • 招待講演
  • [学会発表] 言語による画像理解とそれに基づく行動の生成まで2021

    • 著者名/発表者名
      岡谷貴之
    • 学会等名
      CRESTセミナー
    • 関連する報告書
      2021 実績報告書
  • [図書] 深層学習 改訂第2版2022

    • 著者名/発表者名
      岡谷 貴之
    • 総ページ数
      384
    • 出版者
      講談社
    • ISBN
      4065133327
    • 関連する報告書
      2022 実績報告書 2021 実績報告書

URL: 

公開日: 2020-11-24   更新日: 2024-06-24  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi