Research Abstract |
制約のない実世界の画像を計算機に認識させ,言語により記述させる技術を一般画像認識と呼ぶ.我々人間も外界の多くの情報を視覚から認識し行動決定を行っているように,本研究の研究課題である知能ロボットにおいても一般画像認識は必要不可欠な機能の一つであるといえる.一般画像認識は,扱う画像や認識対象が多種多様であるため,極めて難しいタスクであると認知されている.汎用性の高い一般画像認識を実現するためには,大量の事例データからの統計学習が鍵となる.しかしながら,従来の手法は学習サンプル数に対するスケーラビリティを欠いていたため,大規模な画像コーパスを用いて学習・認識を行うことは著しく困難であった. 本年度は,これまでに開発した技術の統合を行い,大規模一般画像認識のための数理的枠組みを完成させた.さらに,実際に1200万枚の画像データベースを用いた評価実験により,その有効性を確認した.例えば,学習サンプル数を増やすほど認識可能な語彙数が増え,個々の画像に対するラベルづけの精度も向上する.特に,本研究で提案したGLCと呼ばれる画像特徴量や,CCDと呼ばれる距離計量学習手法が有効である。その他にも多くの重要な知見を得ており,これらを博士論文へまとめた. 本研究で完成された数理的理論体系は,提案手法に限らない汎用的なものであるため,大規模一般画像認識技術の発展に大きく貢献することが期待される.対外発表においても,4件の査読付き論文誌に加え,画像認識における最高峰の国際会議であるCVPR, BMVCに採択されるなど高く評価されている.また,最先端の研究機関が参加する著名な画像認識コンペティションにおいて,世界第3位の認識性能を達成した.
|