研究課題/領域番号 |
22K12159
|
研究機関 | 株式会社国際電気通信基礎技術研究所 |
研究代表者 |
宮西 大樹 株式会社国際電気通信基礎技術研究所, 認知機構研究所, 主任研究員 (10737521)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
キーワード | コンピュータビジョン / 自然言語処理 / 3D点群 |
研究実績の概要 |
本研究では、申請者がこれまで取り組んできた二次元動画像の視覚的質問応答手法と近年発展が著しい三次元空間認識技術を統合することで、三次元空間情報について自然言語を介して問い合わせできる三次元空間質問応答技術を確立する。複数の屋内環境をRGB-Dスキャンした三次元空間情報の質問応答データセットを作成し、従来の2D-VQAとの比較検証を行い、実空間の意味的・立体的理解が必要な問い合わせに三次元空間データが有用であることを実証する。今年度は以下の項目に取り組んだ。
①三次元空間質問応答データセットの作成:三次元空間質問応答モデルの学習と評価を行うため、三次元空間質問応答データセットを作成した。質問応答データセットの作成は、質問回答の自動生成と手動によるアノテーションのハイブリッド形式を採用した。三次元空間情報のデータとしては、屋内環境をRGB-DスキャンしたデータセットScanNetを用いた。実空間のデータに対して手動だけで質問を作成すると、比較的簡単な質問が作成されてしまう問題があるため、ScanNetの環境内にある各物体に言語的記述を施したScanReferのデータに質問回答生成モデルを適用することで、三次元空間中の物体に対する質問とその解答を自動生成した。
②三次元物体認識技術を用いた三次元空間質問応答モデルの開発:実空間をRGB-Dスキャンした三次元空間情報とその空間に関する自由形式の質問を入力とし、その質問と三次元空間データ(点群データ)に対応する回答を予測する視覚的質問応答モデルを開発した。視覚的質問応答のデータに三次元物体認識の結果を用いることで、物体の位置関係や形状を考慮しつつ、オクルージョンへの頑健性を高め、カメラ視点に左右されずに物体の同一性を保証した視覚的質問応答を可能とした。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
本研究課題では、3Dスキャンした現実世界の状況を言語によって問い合わせ、3D物体認識の結果と質問内容をもとに推論して適切な解答を返す3D質問応答の問題に取り組んでいる。この枠組みを実現するため、今年度は、①屋内環境を3Dスキャンした大規模3DデータセットScanNetの800シーンに対して、人手による4万件以上の質問応答ペアの言語アノテーションを行い、3D質問応答データセットScanQAを作成した。②3Dスキャンに対して3D物体検知を行い、その結果に対して質問応答する3D質問応答モデルScanQAの開発を行った。研究結果をまとめた論文がコンピュータビジョンのTop-tierの国際会議CVPR 2022に採択されたため、「(1)当初の計画以上に進展している」の評価が妥当と考える。
|
今後の研究の推進方策 |
次年度は、本年度作成した3D質問応答データセットScanQAを拡張して、3D環境内のランダムな場所にエージェントを配置し、エージェントが環境内を探索して3D環境に関する質問(例、ガレージにある車は何色ですか?)に回答する課題、身体性を考慮した質問応答(Embodied QA)のデータセット作成と主観的な情報を用いたEmbodied QAエージェントの開発を行う。
|