写真に写っている物体を分かりやすい表現で説明することを目指したアプリケーションとして,本研究では物体認識技術を応用した絵描き歌自動生成システムの技術開発に取り組んでいる.未知の物体を言語で表現するとき,人はよりイメージしやすい物体を用いて「○○のような」「××を△△に乗せたような」といった比喩的表現を生成する.これを機械が実現するためには,物体の外観特徴を抽象的にとらえた上で他の物体との類似性を上位レベルで評価する必要があり,人工知能の本質的な課題といえる. 物体を絵描き歌のような抽象化された表現で表すとき,あるまとまりを持ったパーツの集合体として物体を領域分割する必要がある.そこで今年度は,昨年度に引き続き深層学習を用いて画像を教師無しセグメンテーションする手法を開発した.提案手法は画像ピクセルのグルーピングを行うタスクを通して,畳み込みニューラルネットワークはランダムな重みからより良いパラメータへと自己学習する.本手法は教師無し学習のみならず,一部の画像領域のラベルを指定するだけで画像全体をセグメンテーションするユーザインタラクティブな使用が可能であり,良く知られる従来手法グラフカットを適用した場合よりも性能が高いことを実験で確認した.また,本手法を用いて画像内の顕著なパターンを学習し,顕著性の高い物体の領域を検出するタスクに応用して知見をまとめ,信号処理のトップ国際会議ICASSP’2019に論文採択された.画像セグメンテーションはカラー画像に加え距離画像等の多種類のセンサ情報を統合することでより高い精度が得られる.このようなマルチモーダル画像を用いた深層学習アプローチについて知見をまとめ,Elsevier出版の書籍”Multimodal Scene Understanding 1st Edition”の第2章に寄稿した(2019年8月刊行予定).
|