研究課題/領域番号 |
16K12455
|
研究機関 | 国立研究開発法人産業技術総合研究所 |
研究代表者 |
金崎 朝子 国立研究開発法人産業技術総合研究所, 人工知能研究センター, 研究員 (00738073)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 物体認識 / 画像セグメンテーション / 機械学習 / マルチビュー画像 / 姿勢推定 / 教師なし学習 |
研究実績の概要 |
写真に写っている物体を分かりやすい表現で説明することを目指したアプリケーションとして,本研究では物体認識技術を応用した絵描き歌自動生成システムの技術開発に取り組んでいる.未知の物体を言語で表現するとき,人はよりイメージしやすい物体を用いて「○○のような」「××を△△に乗せたような」といった比喩的表現を生成する.これを機械が実現するためには,物体の外観特徴を抽象的にとらえた上で他の物体との類似性を上位レベルで評価する必要があり,人工知能の本質的な課題といえる. このような課題を達成するための物体認識技術は,ある特定の既知物体をデータベースに登録して後に照合できる機能(特定物体認識)だけでなく,未知の物体であっても,それが何のカテゴリであるかを推定できる機能(一般物体認識)が要求される.さらに,絵描き歌の素材として様々な物体を認識するためには,各物体カテゴリを代表するような一つの決まった姿勢のみを学習するのでは不十分であり,あらゆる回転姿勢の物体をさまざまな方向から観測して認識できるように学習する必要がある.そこで,今年度は,回転台を用いた撮影およびインターネット上で収集した三次元物体のCADモデルのレンダリングを用いて,物体を様々な方向から見たマルチビュー画像を学習し,物体のカテゴリと姿勢を同時に認識する手法を開発した.本研究は深層学習を用いており,物体の姿勢の教師信号を人間が与えることなく,自動的に獲得できる点が新しい.提案手法は,三次元物体検索の国際的コンペティションSHREC'17にて,二部門で世界第一位の性能を記録した. さらに,画像全体から個々の物体に喩えるための領域を自動抽出するために,画像セグメンテーション手法の開発を進めた.人による教師データ作成を必要としない教師なし学習の新たな手法を提案し,複数の既存手法との比較実験を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
絵描き歌自動生成システムにおいて最も重要な要素技術である物体認識技術,および画像領域抽出技術の開発において,大きな進捗があった.よって,本課題は順調に進展していると判断する. 第一に,回転台を用いた撮影およびインターネット上で収集した三次元物体のCADモデルのレンダリングを用いて,物体を様々な方向から見たマルチビュー画像を学習し,物体のカテゴリと姿勢を同時に認識する手法を開発した.本課題で必要となる物体認識技術は,ある特定の既知物体をデータベースに登録して後に照合できる機能(特定物体認識)だけでなく,未知の物体であっても,それが何のカテゴリであるかを推定できる機能(一般物体認識)が要求される.さらに,絵描き歌の素材として様々な物体を認識するためには,各物体カテゴリを代表するような一つの決まった姿勢のみを学習するのでは不十分であり,あらゆる回転姿勢の物体をさまざまな方向から観測して認識できるように学習する必要がある.本研究は深層学習を用いており,物体の姿勢の教師信号を人間が与えることなく,自動的に獲得できる点が新しい.提案手法は,三次元物体検索の国際的コンペティションSHREC17にて,二部門で世界第一位の性能を記録している. 第二に,画像全体から個々の物体に喩えるための領域を自動抽出するために,画像セグメンテーション手法の開発を進めた.画像セグメンテーション手法は自動運転を目的とした車載カメラ画像認識分野で特に発展しているが,車,道路等といった特定の物体の領域を切り分ける車載カメラ画像認識とは異なり,本研究課題は認識対象が限定されていない.そこで,対象を限定せず,人による教師データ作成を必要としない深層学習ベースの教師なし学習手法を新たに提案した.画像セグメンテーションおよび物体領域抽出に関する複数の既存手法との比較実験を行い,提案手法の有効性を確かめた.
|
今後の研究の推進方策 |
写真(画像)を入力とした絵描き歌の自動生成システムを開発する.まず,よく知られて分かりやすく,絵として描きやすい形の物体を「パーツ物体」として学習する.絵描き歌の対象物体を写した入力画像が与えられたとき,まず,画像全体からパーツ物体を検出する.次に,検出された各パーツ物体を絵に変換する.最後に,パーツ物体の絵を描く順に並べて歌詞を生成する.パーツ物体の絵への変換は,パーツ物体検出器の可視化,および線画の補間・変形により実現する.絵描き歌の歌詞生成は,各パーツ物体に適した短文を大量のWebページからテキストマイニングすることで実現し,生成された歌詞のクラウドソーシングによる評価をシステムにフィードバックする. パーツ物体検出器については,出力カテゴリを分かりやすい物体のみに絞って再学習させるFine-tuningを行うことで,絵描き歌に適したパーツ物体検出器を学習する.ここで,分かりやすい物体カテゴリの選択は,「カテゴリ内の外観の分散の少なさ」「外観の単純さ」「知名度の高さ」を評価値としたランキングにより行う. また,画像内の様々な領域に対して物体認識を行うことで,パーツ物体の検出を行う.これにより,各領域に対して推測される物体名とそのスコアが計算される.ここで,スコアの閾値が高いと検出されるパーツ物体はまばらになり,逆に閾値が低いと過密になる.絵描き歌を生成するには各パーツ部位をまんべんなく検出する必要があるが,単純に画像全体が埋まるまで閾値を下げると,物体スコアの低いゴミのようなものまで検出されてしまう.そこで本研究では,パーツ物体スコアと「画像全体におけるパーツの埋まり度」を組み合わせた評価値を導入することで,信頼度の高いパーツ物体が残るような全体最適化を行う.
|