研究課題/領域番号 |
21K12079
|
研究機関 | 立命館大学 |
研究代表者 |
松尾 直志 立命館大学, 情報理工学部, 助教 (80449545)
|
研究分担者 |
島田 伸敬 立命館大学, 情報理工学部, 教授 (10294034)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | 機械学習 / 教師なし学習 / 自己符号化器 / コンピュータビジョン |
研究実績の概要 |
様々な見え方がある対象に自動的に符号を割り当てる方法の研究として、3次元物体を撮影した画像から、それと整合する3次元形状の候補を想起する方法を開発し、国際会議(IROS2021)で発表を行った。 ある視点から撮影した画像1枚だけでは3次元形状が一般には定まらないため、その画像から想像できる矛盾しない3次元形状は無限に存在する。人はそれらの3次元形状を想像し、別の視点から撮影した画像を組み合わせて追加の視点から撮影した画像を組み合わせて3次元形状の候補を絞り込んでいくことができる。この能力を計算機上で実現するため、3次元形状に変換できる多次元ベクトルを考えて記述子とし、2次元画像を入力すると記述子空間上の集合を出力する深層学習モデルを構築した。 モデルが出力する集合内の記述子は入力された画像と矛盾しない形状を表しており、同一状況について複数視点から撮影した画像を入力してそれぞれ集合を得たとき、それらの共通部分として絞り込まれた形状候補を得ることができる。発表では画像と記述子集合、及び3次元形状が見たすべき3つの論理的制約に基づく損失関数を新たに提案し、これを用いてモデルの訓練を行っている。この損失関数を最小化することによって、画像から記述子空間上の集合への変換や記述子から3次元形状への変換の両方が自動的に構成される仕組みとなっている。このため、画像と3次元形状のペアのデータセットさえあればモデルを構成でき、人手で設計する必要がない。このようにして得られる記述子は見え方と関連しており自動的に符号を割り当てたものと見なせる。 また、この方法は部分的な情報から全体像を想像する問題に適用できる構造となっており、実際に服の一部(裾や脇、袖など)の画像から全体形状を想像して絞り込む実験を行い機能することを示すことができた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
3次元形状をある視点で撮影した画像から全体形状を想像する方法についての研究は画像と3次元形状という実例のペアから3次元形状の記述子表現(符号)を得るものであり、当初計画では2021年度、2022年度に渡っての課題の一部であった。こちらを優先したため、2021年度に行う予定であった人工的な変換に関して不変であることを基にしたautoencoderを構成する方法の開発は遅れている。
|
今後の研究の推進方策 |
①人による物体の把持方法や物体の配置それ自体を表現する符号が画像から得られるとすれば、その符号は画像撮影時の位置やアングルには依存しないはずである。しかし単に画像を再現する符号を考えると同種の把持方法でも写り方によって異なる符号となってしまう。ここから逆に、そのような変換によって符号は変化しないという拘束を評価関数に組み入れて符号を生成する方法が考えられるので、まずは回転や拡大縮小などの人工的な変換に関して不変な符号を与えるautoencoderを構成する方法を開発する(2022年度)。 ②人工的な変換ではなく、ある把持方法を複数視点から撮影したデータや同一地点の昼夜の風景画像のように同値であることが分かっている観察データの組を手掛りにし、それらの関係を反映したauto-encoderを構成する方法を開発する(2022年度)。 ③同値であるか否かでなく、対象間の類似性を表す数値的尺度が与えられたときそれを反映した計量を持つ符号を出力するauto-encoderを構成する方法を開発する(2023年度)。
|
次年度使用額が生じた理由 |
深層学習モデルの訓練のためのライブラリやフレームワークはそれを高速に実行するための環境としてNVIDIA社のGPUを前提としているものが広く使われている。 また、NVIDIA社のGPUは通常毎年、計算能力のより優れた新型モデルが発売されておりそれを搭載した計算機を購入する予定であった。しかし2021年度については半導体不足等の関係か新型モデルが発売されなかったため、新型モデルが発売されてから購入することとした。
|