2023 年度実績報告書

専門知に基づいて画像を理解し説明する対話型AIの実現

研究課題

研究課題/領域番号	23H00482
研究機関	東北大学
研究代表者	岡谷貴之東北大学, 情報科学研究科, 教授 (00312637)
研究分担者	菅沼雅徳東北大学, 情報科学研究科, 助教 (00815813)
研究期間 (年度)	2023-04-01 – 2027-03-31
キーワード	マルチモーダルAI / 画像理解 / 車載カメラ画像
研究実績の概要	研究実施計画に従って研究を進め、以下のような成果を得た。まず、車載カメラの画像から運転時の危険を予測・説明するタスクを設計し、そのためのデータセットDHPR（Driving Hazard Prediction and Reasoning）を作った。既存の車載画像のデータセットの画像に，クラウドソーシングでアノテーションを行った。その結果をまとめたものは現在、論文誌に投稿中である。研究項目「画像記述表現高度化」では、マルチモーダルAIのための画像特徴抽出の方法を研究した。さらに、画像からの異常検知を題材に、画質記述表現の高度化につながる特徴抽出に関する研究を複数行い、国際会議INDIN2023、 WACV2024等で発表した。また、画像セグメンテーションのための無教師ドメイン適応手法を新たに開発し、Computer Vision and Image Understanding誌にて発表した。研究項目「知識の表現・利用方法」では、上述の画像特徴抽出方法を大規模言語モデルと統合したマルチモーダルAIモデルを構築した。上述のDHPRを用いて、複数のモデルの学習（文脈内学習含む）と推論性能の評価実験を行い、一定の精度で推論を行えることと、実用レベルまでには改善の余地が残ることを確認した。また、橋梁の画像点検タスクを対象に、橋梁の変状を認識し説明可能なマルチモーダルAIのモデル構築と性能評価を行った。成果はComputer-Aided Civil and Infrastructure Engineering誌にて発表した。さらに、未知の屋内環境を探索し、地図を構築するタスクを対象に、暗黙知を学習し推論に活用できるAIモデルの研究を行い、International Journal of Computer Vision誌にて発表した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由車載カメラ画像を対象とした運転リスク予測を対象としたデータセットDHPRを世界に先駆けて構築し、モデルの評価を行い、医療画像診断のための既存のマルチモーダルAIの性能評価を行うなど、順調に研究を進めることが出来ている。成果は、International Journal of Computer Vision誌、Computer Vision and Image Understanding誌、Computer Aided Civil and Infrastracture Engineering誌など、関連分野のトップレベルの論文誌複数に論文が採択されている。
今後の研究の推進方策	いわゆる生成AIの研究開発、特に大規模言語モデル（LLM）や、LLMをマルチモーダル入力を扱えるように拡張したものの進展が著しい。メジャーなテック企業が、これらのモデルの学習を、百億円オーダーの金額を計算機使用料に充てて大規模に行うことが常態化している。このような中にあって限られた予算で優れた研究を行うべく、最先端の動向を把握し、未解決の問題を的確に見極めることを重視している。幸い、現行のAIにはその規模のいかんによらず明確な限界があるとわれわれは考えており、研究すべき残された課題の特定はうまくできていると考えている。

研究成果
(14件)

すべて 2024 2023

すべて雑誌論文 (10件) (うち査読あり 10件、オープンアクセス 9件) 学会発表 (4件) (うち招待講演 4件)

[雑誌論文] SBCFormer: Lightweight Network Capable of Full-size ImageNet Classification at 1 FPS on Single Board Computers2024
- 著者名/発表者名
  Lu Xiangyong、Suganuma Masanori、Okatani Takayuki
- 雑誌名
  
  Proceedings of IEEE/CVF Winter Conference on Applications of Computer Vision
  
  巻: - ページ: 1112～1122
- DOI
  10.1109/WACV57701.2024.00116
- 査読あり / オープンアクセス
[雑誌論文] That’s BAD: blind anomaly detection by implicit local feature clustering2024
- 著者名/発表者名
  Zhang Jie、Suganuma Masanori、Okatani Takayuki
- 雑誌名
  
  Machine Vision and Applications
  
  巻: 35 ページ: -
- DOI
  10.1007/s00138-024-01511-9
- 査読あり / オープンアクセス
[雑誌論文] Contextual Affinity Distillation for Image Anomaly Detection2024
- 著者名/発表者名
  Zhang Jie、Suganuma Masanori、Okatani Takayuki
- 雑誌名
  
  Proceedings of IEEE/CVF Winter Conference on Applications of Computer Vision
  
  巻: - ページ: 148～157
- DOI
  10.1109/WACV57701.2024.00022
- 査読あり / オープンアクセス
[雑誌論文] Improving visual question answering for bridge inspection by pre‐training with external data of image?text pairs2023
- 著者名/発表者名
  Kunlamai Thannarot、Yamane Tatsuro、Suganuma Masanori、Chun Pang‐Jo、Okatani Takayaki
- 雑誌名
  
  Computer-Aided Civil and Infrastructure Engineering
  
  巻: 39 ページ: 345～361
- DOI
  10.1111/mice.13086
- 査読あり / オープンアクセス
[雑誌論文] Symmetry-aware Neural Architecture for Embodied Visual Navigation2023
- 著者名/発表者名
  Liu Shuang、Suganuma Masanori、Okatani Takayuki
- 雑誌名
  
  International Journal of Computer Vision
  
  巻: 132 ページ: 1091～1107
- DOI
  10.1007/s11263-023-01909-4
- 査読あり / オープンアクセス
[雑誌論文] Unsupervised domain adaptation for semantic segmentation via cross-region alignment2023
- 著者名/発表者名
  Wang Zhijie、Liu Xing、Suganuma Masanori、Okatani Takayuki
- 雑誌名
  
  Computer Vision and Image Understanding
  
  巻: 234 ページ: 103743～103743
- DOI
  10.1016/j.cviu.2023.103743
- 査読あり / オープンアクセス
[雑誌論文] How Do Label Errors Affect Thin Crack Detection by DNNs2023
- 著者名/発表者名
  Xu Liang、Zou Han、Okatani Takayuki
- 雑誌名
  
  Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW)
  
  巻: - ページ: 4414～4423
- DOI
  10.1109/CVPRW59228.2023.00464
- 査読あり / オープンアクセス
[雑誌論文] Geometry Enhanced Reference-based Image Super-resolution2023
- 著者名/発表者名
  Zou Han、Xu Liang、Okatani Takayuki
- 雑誌名
  
  Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW)
  
  巻: - ページ: 6124～6133
- DOI
  10.1109/CVPRW59228.2023.00652
- 査読あり / オープンアクセス
[雑誌論文] Accurate Single-Image Defocus Deblurring Based on Improved Integration with Defocus Map Estimation2023
- 著者名/発表者名
  Ye Qian、Suganuma Masanori、Okatani Takayuki
- 雑誌名
  
  Proceedings of International Conference on Image Processing
  
  巻: - ページ: 750～754
- DOI
  10.1109/ICIP49359.2023.10223146
- 査読あり / オープンアクセス
[雑誌論文] Network Pruning and Fine-tuning for Few-shot Industrial Image Anomaly Detection2023
- 著者名/発表者名
  Zhang Jie、Suganuma Masanori、Okatani Takayuki
- 雑誌名
  
  Proceedings of IEEE International Conference on Industrial Informatics
  
  巻: - ページ: 1～6
- DOI
  10.1109/INDIN51400.2023.10218283
- 査読あり
[学会発表] 深層学習が牽引するAIの現在と今後2023
- 著者名/発表者名
  岡谷貴之
- 学会等名
  日本医学物理学会
- 招待講演
[学会発表] コンピュータビジョンにおける深層学習モデルの現状2023
- 著者名/発表者名
  岡谷貴之
- 学会等名
  日本心理学会87大会
- 招待講演
[学会発表] 主に画像を対象とするAI(深層学習)の現在と今後2023
- 著者名/発表者名
  岡谷貴之
- 学会等名
  自動制御連合会
- 招待講演
[学会発表] Applying Vision and Language AI to Real-World Problems to Real-World Problems2023
- 著者名/発表者名
  Takayuki Okatani
- 学会等名
  国立精華大学と東北大学合同ワークショップ
- 招待講演

2023 年度 実績報告書

専門知に基づいて画像を理解し説明する対話型AIの実現

研究代表者

岡谷 貴之 東北大学, 情報科学研究科, 教授 (00312637)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] SBCFormer: Lightweight Network Capable of Full-size ImageNet Classification at 1 FPS on Single Board Computers2024

著者名/発表者名

雑誌名

DOI

[雑誌論文] That’s BAD: blind anomaly detection by implicit local feature clustering2024

著者名/発表者名

雑誌名

DOI

[雑誌論文] Contextual Affinity Distillation for Image Anomaly Detection2024

著者名/発表者名

雑誌名

DOI

[雑誌論文] Improving visual question answering for bridge inspection by pre‐training with external data of image?text pairs2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] Symmetry-aware Neural Architecture for Embodied Visual Navigation2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] Unsupervised domain adaptation for semantic segmentation via cross-region alignment2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] How Do Label Errors Affect Thin Crack Detection by DNNs2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] Geometry Enhanced Reference-based Image Super-resolution2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] Accurate Single-Image Defocus Deblurring Based on Improved Integration with Defocus Map Estimation2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] Network Pruning and Fine-tuning for Few-shot Industrial Image Anomaly Detection2023

著者名/発表者名

雑誌名

DOI

[学会発表] 深層学習が牽引するAIの現在と今後2023

著者名/発表者名

学会等名

[学会発表] コンピュータビジョンにおける 深層学習モデルの現状2023

著者名/発表者名

学会等名

[学会発表] 主に画像を対象とするAI(深層学習)の現在と今後2023

著者名/発表者名

学会等名

[学会発表] Applying Vision and Language AI to Real-World Problems to Real-World Problems2023

著者名/発表者名

学会等名

2023 年度実績報告書

岡谷貴之東北大学, 情報科学研究科, 教授 (00312637)

[学会発表] コンピュータビジョンにおける深層学習モデルの現状2023