本研究では局所領域や大局領域の情報を適応的に統合しながら画像の認識、理解を進めていく方法を研究した。画像理解の研究では、局序的な情報と大局的な情報を統合しながら推論を進めていく方法を提案し、国際会議や論文誌上で発表した。また、人や人以外の領域を局所特徴のBag-of-Visual Wordsにより表現し、それを基に人と人以外の分類を行った。Bag-of-visual wordsを用いることにより、この分野で有名なdeformable part modelよりも人の向きや隠れに強い人検出を実現した。さらに高精度化するためにcolor nameを基に入力画像を領域分割し、それらを適応的に統合しながら検出を行った。これらの成果は国内および国際会議で発表した。さらに、監視カメラの画像中から写っている人数を数える研究も行った。ここではpartial least squaresと呼ばれる方法を基に計数を行った。さらに、partial least squaresの隠れ変数からsupport vector回帰をすることにより高精度化する方法も提案し、国内外の会議で発表した。また、対象追跡の問題では一旦誤追跡が起こると復帰できないという問題がある。この問題に対し、いくつかの指標を用いて状況に応じて誤追跡の可能性を考えることにより、高精度化を行った。この結果を論文誌上で発表した。
|