Project/Area Number |
23H00482
|
Research Category |
Grant-in-Aid for Scientific Research (A)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Medium-sized Section 61:Human informatics and related fields
|
Research Institution | Tohoku University |
Principal Investigator |
岡谷 貴之 東北大学, 情報科学研究科, 教授 (00312637)
|
Co-Investigator(Kenkyū-buntansha) |
菅沼 雅徳 東北大学, 情報科学研究科, 助教 (00815813)
|
Project Period (FY) |
2023-04-01 – 2027-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥46,800,000 (Direct Cost: ¥36,000,000、Indirect Cost: ¥10,800,000)
Fiscal Year 2024: ¥11,570,000 (Direct Cost: ¥8,900,000、Indirect Cost: ¥2,670,000)
Fiscal Year 2023: ¥13,260,000 (Direct Cost: ¥10,200,000、Indirect Cost: ¥3,060,000)
|
Keywords | マルチモーダルAI / 深層学習 / コンピュータビジョン / 知識獲得 / 画像理解 / 車載カメラ画像 / 自然言語 / 人工知能 / 対話型AI |
Outline of Research at the Start |
画像に写る物・事象を理解し、自然言語で説明する対話型のAIであって、特に専門知に基づいて行う判断・意思決定において人をサポート可能なものを実現する。そのためには専門知を取り込み、画像理解に利用できるマルチモーダル表現として保持し、さらにそれに基づく仮説推論を行える必要がある。専門書や論文などのテキストデータとして得られる専門知を視覚概念と対応付ける方法などの必要な方法を実現し、目標を達成する。
|
Outline of Annual Research Achievements |
研究実施計画に従って研究を進め、以下のような成果を得た。 まず、車載カメラの画像から運転時の危険を予測・説明するタスクを設計し、そのためのデータセットDHPR(Driving Hazard Prediction and Reasoning)を作った。既存の車載画像のデータセットの画像に,クラウドソーシングでアノテーションを行った。その結果をまとめたものは現在、論文誌に投稿中である。 研究項目「画像記述表現高度化」では、マルチモーダルAIのための画像特徴抽出の方法を研究した。さらに、画像からの異常検知を題材に、画質記述表現の高度化につながる特徴抽出に関する研究を複数行い、国際会議INDIN2023、 WACV2024等で発表した。また、画像セグメンテーションのための無教師ドメイン適応手法を新たに開発し、Computer Vision and Image Understanding誌にて発表した。 研究項目「知識の表現・利用方法」では、上述の画像特徴抽出方法を大規模言語モデルと統合したマルチモーダルAIモデルを構築した。上述のDHPRを用いて、複数のモデルの学習(文脈内学習含む)と推論性能の評価実験を行い、一定の精度で推論を行えることと、実用レベルまでには改善の余地が残ることを確認した。また、橋梁の画像点検タスクを対象に、橋梁の変状を認識し説明可能なマルチモーダルAIのモデル構築と性能評価を行った。成果はComputer-Aided Civil and Infrastructure Engineering誌にて発表した。さらに、未知の屋内環境を探索し、地図を構築するタスクを対象に、暗黙知を学習し推論に活用できるAIモデルの研究を行い、International Journal of Computer Vision誌にて発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
車載カメラ画像を対象とした運転リスク予測を対象としたデータセットDHPRを世界に先駆けて構築し、モデルの評価を行い、医療画像診断のための既存のマルチモーダルAIの性能評価を行うなど、順調に研究を進めることが出来ている。成果は、International Journal of Computer Vision誌、Computer Vision and Image Understanding誌、Computer Aided Civil and Infrastracture Engineering誌など、関連分野のトップレベルの論文誌複数に論文が採択されている。
|
Strategy for Future Research Activity |
いわゆる生成AIの研究開発、特に大規模言語モデル(LLM)や、LLMをマルチモーダル入力を扱えるように拡張したものの進展が著しい。メジャーなテック企業が、これらのモデルの学習を、百億円オーダーの金額を計算機使用料に充てて大規模に行うことが常態化している。このような中にあって限られた予算で優れた研究を行うべく、最先端の動向を把握し、未解決の問題を的確に見極めることを重視している。幸い、現行のAIにはその規模のいかんによらず明確な限界があるとわれわれは考えており、研究すべき残された課題の特定はうまくできていると考えている。
|