画像認識の高度化に向けた画像の撮影方法を最適化する異環境異種データ適応型AIの構築

Research Project

Project/Area Number	23K11211
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 61030:Intelligent informatics-related
Research Institution	Hokkaido University
Principal Investigator	前田圭介北海道大学, データ駆動型融合研究創発拠点, 特任准教授 (20798243)
Project Period (FY)	2023-04-01 – 2027-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,810,000 (Direct Cost: ¥3,700,000、Indirect Cost: ¥1,110,000) Fiscal Year 2026: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000) Fiscal Year 2025: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000) Fiscal Year 2024: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000) Fiscal Year 2023: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
Keywords	深層学習 / 損傷検出 / XAI / 撮影方法 / 画像認識 / 注目領域 / 機械学習 / 異環境データ
Outline of Research at the Start	本研究課題では、インフラ維持管理の現場で撮影される損傷画像の認識精度向上のために、AIに入力される画像の撮影方法を最適化する異環境異種データ適応型AIの構築を目指す。これまで申請者が進めてきた「損傷画像中の注目領域を推定する説明可能なAI（XAI）」をインフラ点検中の技術者視点の映像（１人称映像）へ対応可能となるよう拡張することで、AIの実社会応用で生じる画像撮影方法の多様性の問題を解決可能な新たな理論を構築する。具体的に、１人称映像と損傷画像間の性質の差、点検環境の違い、損傷画像を撮影する技術者のノウハウの違いによって生じる問題を解決することで，AIの認識しやすい損傷画像が取得可能となる。
Outline of Annual Research Achievements	本研究課題では、インフラ維持管理の現場で撮影される損傷画像の認識精度向上のために、AIに入力される画像の撮影方法を最適化する異環境異種データ適応型AIの構築を目指す。これまで申請者が進めてきた「損傷画像中の注目領域を推定する説明可能なAI（XAI）」をインフラ点検中の技術者視点の映像へ対応可能となるよう拡張することで、AIの実社会応用で生じる画像撮影方法の多様性の問題を解決可能な新たな理論を構築する。本理論構築に向けて、【フェーズ１】１人称映像と損傷画像の関係性を学習する異種データ対照学習理論の実現、【フェーズ２】附帯情報を導入した異環境適応型XAIの実現、【フェーズ３】技術者間のノウハウの共通性を転移可能なマルチビューグラフ埋め込み理論の構築、【フェーズ４】プロトタイプ版の構築と技術者からのフィードバックの反映の４つのフェーズに分けて実施する。令和５年度では、【フェーズ１】の実現に向けて、損傷画像を用いて構築したAIにインフラ点検時に得られた映像を入力することで、異なる種類のデータであっても損傷を検出可能であるかを検証した。検証結果より、点検時に得られた映像から損傷を高精度に検出可能であることが明らかとなったことから、異種データ間の関係性を学習可能な理論の構築を実現した。さらに、本計画当初は技術者による現場点検を想定していたが、更なる省力化のためにはドローンの活用が期待されていることから、難易度の高いドローン映像へ適用し、研究を進めてきた。上記に関連する研究の成果が認められ、査読付き学術論文誌への採録、さらに映像情報メディア学会の特別講演に至っている。
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 令和５年度では、【フェーズ１】１人称映像と損傷画像の関係性を学習する異種データ対照学習理論の実現が目標であった。「研究実績の概要」で述べた通り、１人称映像よりも省力化が期待されるドローン映像への適用に挑戦し、その関係性を学習可能であることを明らかにしている。その成果が認められ、研究開始初年度にもかかわらず学術論文の採択や学会発表に至っている。さらに、令和６年度以降実施予定の【フェーズ２】【フェーズ３】について先行着手している。具体的に、【フェーズ２】の附帯情報を導入したXAIの実現に向けて、異種データを対象とした生成AIであるマルチモーダルモデルを用いた損傷認識技術を構築し、そして、【フェーズ３】のグラフ埋め込み理論構築に向けた基礎技術として、グラフ構造に対応した映像認識技術を実現している。これらの成果は査読付き学術論文誌への採択や査読付き国際会議での発表に至っている。以上より、研究の更なる発展が期待されることから、「（１）当初の計画以上に進展している。」と判断した。
Strategy for Future Research Activity	令和６年度以降では、「研究実績の概要」に記載した【フェーズ２】～【フェーズ４】を実施する。【フェーズ２】では、附帯情報を導入した異環境適応型XAIの実現を目指す。具体的に、損傷個所の部位や部材、インフラの構造種別など、環境の違いを記載した附帯情報を用い、それらと点検時に得られる映像を協調的に用いることで、損傷認識XAIを構築する予定である。【フェーズ３】では異なる技術者・ドローンが点検を実施する場合でも、統一的な点検を実施可能とするための理論を構築する。具体的に、技術者間のノウハウの共通性等を転移可能なマルチビューグラフ埋め込み理論の構築を行う予定である。さらに、【フェーズ４】ではプロトタイプ版の構築と技術者からのフィードバックの反映を目指す。以上の計画に則って、本研究を遂行する。

Report

(1 results)

2023 Research-status Report

Research Products
(36 results)

All 2024 2023 Other

All Journal Article (18 results) (of which Peer Reviewed: 18 results, Open Access: 17 results) Presentation (17 results) (of which Int'l Joint Research: 7 results) Remarks (1 results)

[Journal Article] Automatic Findings Generation for Distress Images Using In-Context Few-Shot Learning of Visual Language Model Based on Image Similarity and Text Diversity2024
- Author(s)
  Yuto Watanabe, Naoki Ogawa, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
- Journal Title
  
  Journal of Robotics and Mechatronics
  
  Volume: 36 Issue: 2 Pages: 353-364
- DOI
  10.20965/jrm.2024.p0353
- ISSN
  0915-3942, 1883-8049
- Year and Date
  2024-04-20
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Flexibly manipulating popularity bias for tackling trade-offs in recommendation2024
- Author(s)
  Okamura Hiroki、Maeda Keisuke、Togo Ren、Ogawa Takahiro、Haseyama Miki
- Journal Title
  
  Information Processing and Management
  
  Volume: 61 Issue: 2 Pages: 103606-103606
- DOI
  10.1016/j.ipm.2023.103606
- Related Report
  2023 Research-status Report
- Peer Reviewed
[Journal Article] Individual Persistence Adaptation for User-Centric Evaluation of User Satisfaction in Recommender Systems2024
- Author(s)
  Onodera Nozomu、Maeda Keisuke、Ogawa Takahiro、Haseyama Miki
- Journal Title
  
  IEEE Access
  
  Volume: 12 Pages: 23626-23635
- DOI
  10.1109/access.2024.3360693
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Text-Guided Image Editing Based on Post Score for Gaining Attention on Social Media2024
- Author(s)
  Watanabe Yuto、Togo Ren、Maeda Keisuke、Ogawa Takahiro、Haseyama Miki
- Journal Title
  
  Sensors
  
  Volume: 24 Issue: 3 Pages: 921-921
- DOI
  10.3390/s24030921
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Visual Emotion Recognition Through Multimodal Cyclic-Label Dequantized Gaussian Process Latent Variable Model2023
- Author(s)
  Saito Naoki、Maeda Keisuke、Ogawa Takahiro、Asamizu Satoshi、Haseyama Miki
- Journal Title
  
  Journal of Robotics and Mechatronics
  
  Volume: 35 Issue: 5 Pages: 1321-1330
- DOI
  10.20965/jrm.2023.p1321
- ISSN
  0915-3942, 1883-8049
- Year and Date
  2023-10-20
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Distress estimation of road attachments based on attention-based multiple instance learning considering the diversity of background of images2023
- Author(s)
  渡部航史, 小川直輝, 前田圭介, 小川貴弘, 長谷山美紀
- Journal Title
  
  Artificial Intelligence and Data Science
  
  Volume: 4 Issue: 3 Pages: 482-489
- DOI
  10.11532/jsceiii.4.3_482
- ISSN
  2435-9262
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Multi-task classification of distress types and deterioration levels for infrastructure maintenance2023
- Author(s)
  小川直輝, 前田圭介, 小川貴弘, 長谷山美紀
- Journal Title
  
  Artificial Intelligence and Data Science
  
  Volume: 4 Issue: 3 Pages: 807-814
- DOI
  10.11532/jsceiii.4.3_807
- ISSN
  2435-9262
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Automatic detection of dead trees using in-vehicle video based on semantic segmentation2023
- Author(s)
  小川直輝, 前田圭介, 小川貴弘, 長谷山美紀
- Journal Title
  
  Artificial Intelligence and Data Science
  
  Volume: 4 Issue: 3 Pages: 686-693
- DOI
  10.11532/jsceiii.4.3_686
- ISSN
  2435-9262
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Advanced AI research for enhancing the efficiency of infrastructure maintenance and management2023
- Author(s)
  前田圭介、小川貴弘、長谷山美紀
- Journal Title
  
  Artificial Intelligence and Data Science
  
  Volume: 4 Issue: 3 Pages: 982-989
- DOI
  10.11532/jsceiii.4.3_982
- ISSN
  2435-9262
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Automatic generation of findings for distress images using visual language model—Introduction of few-shot learning based on similar image retrieval—2023
- Author(s)
  渡邉優宇人, 小川直輝, 前田圭介, 小川貴弘, 長谷山美紀
- Journal Title
  
  Artificial Intelligence and Data Science
  
  Volume: 4 Issue: 3 Pages: 223-232
- DOI
  10.11532/jsceiii.4.3_223
- ISSN
  2435-9262
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Acquisition of feature representation of record data via graph neural network to support determination of deterioration levels2023
- Author(s)
  山本一輝、前田圭介、藤後廉、小川貴弘、長谷山美紀
- Journal Title
  
  Artificial Intelligence and Data Science
  
  Volume: 4 Issue: 3 Pages: 694-704
- DOI
  10.11532/jsceiii.4.3_694
- ISSN
  2435-9262
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Distress detection using egocentric videos for increasing discovery rate of novel distress during subway tunnel inspection2023
- Author(s)
  櫻井慶悟、前田圭介、藤後廉、小川貴弘、長谷山美紀
- Journal Title
  
  Artificial Intelligence and Data Science
  
  Volume: 4 Issue: 3 Pages: 393-401
- DOI
  10.11532/jsceiii.4.3_393
- ISSN
  2435-9262
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Classification of Winter Road Surface Condition Based on Multi-modal Transformer Using Sequential Data2023
- Author(s)
  諸戸祐哉、前田圭介、藤後廉、小川貴弘、長谷山美紀
- Journal Title
  
  Artificial Intelligence and Data Science
  
  Volume: 4 Issue: 3 Pages: 402-413
- DOI
  10.11532/jsceiii.4.3_402
- ISSN
  2435-9262
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Manipulation Direction: Evaluating Text-Guided Image Manipulation Based on Similarity between Changes in Image and Text Modalities2023
- Author(s)
  Watanabe Yuto、Togo Ren、Maeda Keisuke、Ogawa Takahiro、Haseyama Miki
- Journal Title
  
  Sensors
  
  Volume: 23 Issue: 22 Pages: 9287-9287
- DOI
  10.3390/s23229287
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Zero-Shot Traffic Sign Recognition Based on Midlevel Feature Matching2023
- Author(s)
  Gan Yaozong、Li Guang、Togo Ren、Maeda Keisuke、Ogawa Takahiro、Haseyama Miki
- Journal Title
  
  Sensors
  
  Volume: 23 Issue: 23 Pages: 9607-9607
- DOI
  10.3390/s23239607
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] TolerantGAN: Text-guided Image Manipulation Tolerant to Real-world Image2023
- Author(s)
  Watanabe Yuto、Togo Ren、Maeda Keisuke、Ogawa Takahiro、Haseyama Miki
- Journal Title
  
  IEEE Open Journal of Signal Processing
  
  Volume: 5 Pages: 1-10
- DOI
  10.1109/ojsp.2023.3343335
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Zero-Shot Visual Sentiment Prediction via Cross-Domain Knowledge Distillation2023
- Author(s)
  Moroto Yuya、Ye Yingrui、Maeda Keisuke、Ogawa Takahiro、Haseyama Miki
- Journal Title
  
  IEEE Open Journal of Signal Processing
  
  Volume: 5 Pages: 177-185
- DOI
  10.1109/ojsp.2023.3344079
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Zero-Shot Neural Decoding with Semi-Supervised Multi-View Embedding2023
- Author(s)
  Akamatsu Yusuke、Maeda Keisuke、Ogawa Takahiro、Haseyama Miki
- Journal Title
  
  Sensors
  
  Volume: 23 Issue: 15 Pages: 6903-6903
- DOI
  10.3390/s23156903
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Presentation] [特別講演] 音声認識・生成AIを用いた通報音声からの事象発生地点予測2024
- Author(s)
  吉田将規, 前田圭介, 藤後廉, 小川貴弘, 長谷山美紀
- Organizer
  映像情報メディア学会技術報告
- Related Report
  2023 Research-status Report
[Presentation] ［特別講演］道路附属物のドローン映像を用いたvision transformerに基づく変状検出技術2024
- Author(s)
  渡部航史, 小川直輝, 前田圭介, 小川貴弘, 長谷山美紀
- Organizer
  映像情報メディア学会技術報告
- Related Report
  2023 Research-status Report
[Presentation] ［特別講演］次世代インフラ維持管理に向けた研究と北海道開発局との連携協定における取組み2024
- Author(s)
  前田圭介, 小川貴弘, 長谷山美紀
- Organizer
  映像情報メディア学会技術報告
- Related Report
  2023 Research-status Report
[Presentation] 双方向Transformerに基づいたサッカー選手のイベントデータからの行動推定に関する検討2024
- Author(s)
  五箇亮太, 諸戸祐哉, 前田圭介, 小川貴弘, 長谷山美紀
- Organizer
  映像情報メディア学会技術報告
- Related Report
  2023 Research-status Report
[Presentation] 視覚言語モデルにおける注目する特徴を指定可能なドメイン適応に関する検討2024
- Author(s)
  岡村洋希, 前田圭介, 藤後廉, 小川貴弘, 長谷山美紀
- Organizer
  映像情報メディア学会技術報告
- Related Report
  2023 Research-status Report
[Presentation] [特別講演] 橋梁点検効率化のための生成AIを用いた所見生成技術2024
- Author(s)
  渡邉優宇人, 小川直輝, 前田圭介, 小川貴弘, 長谷山美紀
- Organizer
  映像情報メディア学会技術報告
- Related Report
  2023 Research-status Report
[Presentation] Masked modeling-based action event prediction considering bidirectional time-series in soccer2024
- Author(s)
  Ryota Goka, Yuya Moroto, Keisuke Maeda, Takahiro Ogawa, Huang-Chia Shih, Miki Haseyama
- Organizer
  International Workshop on Advanced Image Technology 2024 (IWAIT2024)
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] Shoot event prediction in soccer considering expected goals based on players’ positions2023
- Author(s)
  Ryota Goka, Yuya Moroto, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
- Organizer
  2023 IEEE International Conference on Consumer Electronics-Taiwan (ICCE-TW 2023)
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] Prediction of shoot events by considering spatio-temporal relations of multimodal features2023
- Author(s)
  Ryota Goka, Yuya Moroto, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
- Organizer
  2023 IEEE International Conference on Consumer Electronics-Taiwan (ICCE-TW 2023)
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] Caption unification for multiple viewpoint lifelogging images and its verification2023
- Author(s)
  Masaya Sato, Keisuke Maeda, Ren Togo, Takahiro Ogawa, Miki Haseyama
- Organizer
  2023 IEEE 12th Global Conference on Consumer Electronics (GCCE 2023)
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] Human emotion recognition while viewing images based on multi-view variational recurrent neural network2023
- Author(s)
  Yuya Moroto, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
- Organizer
  第26回画像の認識・理解シンポジウム (MIRU2023)
- Related Report
  2023 Research-status Report
[Presentation] Text-guided image manipulation tolerant to real-world image2023
- Author(s)
  Yuto Watanabe, Ren Togo, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
- Organizer
  第26回画像の認識・理解シンポジウム (MIRU2023)
- Related Report
  2023 Research-status Report
[Presentation] In-context Learning を用いた複数視点ライフログ画像のキャプションの統一化に関する検討2023
- Author(s)
  佐藤雅也, 前田圭介, 藤後廉, 小川貴弘, 長谷山美紀
- Organizer
  令和5年度電気・情報関係学会北海道支部連合大会
- Related Report
  2023 Research-status Report
[Presentation] 事前学習済みモデルを用いたラベル修正に基づくNoisy Labels Learningの精度向上に関する検討2023
- Author(s)
  柏木將希, 前田圭介, 藤後廉, 小川貴弘, 長谷山美紀
- Organizer
  令和5年度電気・情報関係学会北海道支部連合大会
- Related Report
  2023 Research-status Report
[Presentation] Deterioration level estimation for infrastructures considering noisy labels via dividemix2023
- Author(s)
  Masaki Kashiwagi, Keisuke Maeda, Ren Togo, Takahiro Ogawa, Miki Haseyama
- Organizer
  2023 IEEE 12th Global Conference on Consumer Electronics (GCCE 2023)
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] Text-guided facial image manipulation for wild images via manipulation direction-based loss2023
- Author(s)
  Yuto Watanabe, Ren Togo, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
- Organizer
  2023 IEEE International Conference on Image Processing (ICIP 2023)
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] Video-music retrieval with fine-grained cross-modal alignment2023
- Author(s)
  Yuki Era, Ren Togo, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
- Organizer
  2023 IEEE International Conference on Image Processing (ICIP 2023)
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Remarks] 北海道大学大学院情報科学研究院メディアダイナミクス研究室
- URL
  https://www-lmd.ist.hokudai.ac.jp/member/keisuke-maeda/
- Related Report
  2023 Research-status Report

画像認識の高度化に向けた画像の撮影方法を最適化する異環境異種データ適応型AIの構築

Principal Investigator

前田 圭介 北海道大学, データ駆動型融合研究創発拠点, 特任准教授 (20798243)

¥4,810,000 (Direct Cost: ¥3,700,000、Indirect Cost: ¥1,110,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Automatic Findings Generation for Distress Images Using In-Context Few-Shot Learning of Visual Language Model Based on Image Similarity and Text Diversity2024

Author(s)

Journal Title

DOI

ISSN

Year and Date

Related Report

[Journal Article] Flexibly manipulating popularity bias for tackling trade-offs in recommendation2024

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Individual Persistence Adaptation for User-Centric Evaluation of User Satisfaction in Recommender Systems2024

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Text-Guided Image Editing Based on Post Score for Gaining Attention on Social Media2024

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Visual Emotion Recognition Through Multimodal Cyclic-Label Dequantized Gaussian Process Latent Variable Model2023

Author(s)

Journal Title

DOI

ISSN

Year and Date

Related Report

[Journal Article] Distress estimation of road attachments based on attention-based multiple instance learning considering the diversity of background of images2023

Author(s)

Journal Title

DOI

ISSN

Related Report

[Journal Article] Multi-task classification of distress types and deterioration levels for infrastructure maintenance2023

Author(s)

Journal Title

DOI

ISSN

Related Report

[Journal Article] Automatic detection of dead trees using in-vehicle video based on semantic segmentation2023

Author(s)

Journal Title

DOI

ISSN

Related Report

[Journal Article] Advanced AI research for enhancing the efficiency of infrastructure maintenance and management2023

Author(s)

Journal Title

DOI

ISSN

Related Report

[Journal Article] Automatic generation of findings for distress images using visual language model—Introduction of few-shot learning based on similar image retrieval—2023

Author(s)

Journal Title

DOI

ISSN

Related Report

[Journal Article] Acquisition of feature representation of record data via graph neural network to support determination of deterioration levels2023

Author(s)

Journal Title

DOI

ISSN

Related Report

[Journal Article] Distress detection using egocentric videos for increasing discovery rate of novel distress during subway tunnel inspection2023

Author(s)

Journal Title

DOI

ISSN

Related Report

[Journal Article] Classification of Winter Road Surface Condition Based on Multi-modal Transformer Using Sequential Data2023

前田圭介北海道大学, データ駆動型融合研究創発拠点, 特任准教授 (20798243)