物理的演繹モデルと帰納的深層学習の融合によるしなやかな画像理解
Project/Area Number |
21H04893
|
Research Category |
Grant-in-Aid for Scientific Research (A)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Medium-sized Section 61:Human informatics and related fields
|
Research Institution | Kyoto University |
Principal Investigator |
西野 恒 京都大学, 情報学研究科, 教授 (60814754)
|
Project Period (FY) |
2021-04-05 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥41,730,000 (Direct Cost: ¥32,100,000、Indirect Cost: ¥9,630,000)
Fiscal Year 2024: ¥7,540,000 (Direct Cost: ¥5,800,000、Indirect Cost: ¥1,740,000)
Fiscal Year 2023: ¥7,540,000 (Direct Cost: ¥5,800,000、Indirect Cost: ¥1,740,000)
Fiscal Year 2022: ¥7,540,000 (Direct Cost: ¥5,800,000、Indirect Cost: ¥1,740,000)
Fiscal Year 2021: ¥11,570,000 (Direct Cost: ¥8,900,000、Indirect Cost: ¥2,670,000)
|
Keywords | コンピュータビジョン / 知覚情報処理 / 知能情報処理 / コンピュテーショナルフォトグラフィ / 光学的画像理解 / 逆問題 |
Outline of Research at the Start |
本研究では、画像理解を研究対象に据え、物理則等の演繹的モデルとデータ駆動の帰納的学習を融合した両者の強みを最大限に引き出す新たな手法の導出を追究する。特に、 「光学的画像理解」と呼ぶ画像からの実世界物体や光景の反射特性、幾何形状、光源状況を含む光学的構成要素の推定を研究射程とし、応用の効く人工知能基盤技術として、様々な不定性の高い逆問題を効率良く精確に推定する一連の手法の確立を目指す。
|
Outline of Annual Research Achievements |
今年度は、昨年度の精緻な3次元形状復元に関する研究をさらに発展させ、光源状況の推定も同様に解析的な生成モデルを仮定しつつ、帰納的学習によって、反射特性を3次元形状とともに同時推定する手法について研究を進めた。特にマルチビューステレオと呼ばれる、複数枚の画像から形状復元をおこなう手法に着目し、従来仮定される拡散反射特性にとどまらない、さまざまな表面反射をおこなう物体に関して、形状とともに反射特性を求める手法を導出した。これは、単一の画像から物体表面の法線を深層学習モデルによって推定し、それらを物体表面の特徴量として新たなマルチビューステレオ法を構成することによって実現した。法線を視点不変の特徴量としてコストボリュームを構築し、視点間対応および3次元座標を大域的な最適解として求める本手法は新規性が高く、様々な反射特性の物体表面を正確に復元できることを実証した。 また、特に自動運転等において重要となる道路光景の素材認識に関する研究も進めた。素材に関する視覚的情報を、各画素と近傍におけるテクスチャを代表とする局所的特徴量だけではなく、それらの画素がどういった物体を構成しているか、またそれらの物体間の画像全体における大局的位置関係を考慮した新たな深層学習モデルを導出し、正確に各画素の素材を認識できることを示した。本研究も極めてノイジーな解空間における大域的な最適解を求める手法を確立するものであり、前述の成果とともに、計画された研究目標を達成するものである。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初計画していた、帰納的学習によって反射特性と3次元形状とともに同時推定を実現する手法を導出し、さらに局所的視覚特徴量と大局的画像構成を考慮した素材認識のための新たな手法を確立した。これらは、計画していた演繹モデルの機能的学習による推定の一例であり、その有効性の検証をおこなえた。これらの研究成果により、計画通り順調に研究が進展していると判断する。
|
Strategy for Future Research Activity |
本年度は、演繹的推定過程自体の帰納的学習を実現すべく、特に非凸双線型最適化問題の学習による最適化を実現する深層学習モデルの導出に注力する。具体的には非線形最適化問題の勾配方向とステップ長を出力する深層ネットワークを考え、さらにこれを任意の物理的制約に起因する潜在空間等の拘束を敵対的事前分布等として組み込み、かつ全体として凸化されるようにした上でネットワーク自体を合成データを活用しend-to-endで学習する。物体の形状および姿勢推定、また反射特性と形状復元に対して本研究を適用することを目的として研究を進める。このような双線型事象の分離問題はいわゆるスタイルとコンテントの分解として、人の姿勢とID、音声の内容と話し方、文章の内容と書き方等々、非常に多くの分野において課題となるため、本研究で導出する演繹モデルの推定過程自体帰納的学習によりおこなう手法は応用範囲の広い基礎技術になると期待できる。
|
Report
(3 results)
Research Products
(12 results)