研究課題
初年度実績として植物鑑定タスクに絞り特徴量抽出を行った。対象とする植物画像データは、植物鑑定の国際コンテスト(PlantCLEF)から入手した。データは約11万3000画像(1000種類の植物)で、内訳は枝、葉、花、果実、樹皮のような多様な画像データの混合であり、多くは背景に他の風景がノイズとして含まれる。専門家でも画像だけでは見間違えるほど似通った画像が多く、挑戦的な研究である。成果概要は以下の通り。【項目1:動植物鑑定向き特徴量抽出とマルチモーダル化】抽出した特徴量には画像に含まれる輪郭や形状の位置情報がある程度取れる特徴量としてHOG特徴量とFisherベクトル特徴量の2つを組み合わせ、確率論的な鑑定方法を開発した。また、深層学習で利用される畳込みニューラルネットワーク特徴量に関しても比較・提案の両面から調査を行った。マルチモーダル化に関しては、画像への注釈文自動付与に関する実験を行った。【項目2: 世界最高レベルの鑑定性能に向けた技術開発】ターゲットとしている国際コンテストPlantCLEFにおいて過去2年間の世界最高精度達成者が深層学習をベースにしていたことを鑑み、VGG 16-layerの畳込みニューラルネットを改良する手法で世界最高レベルの鑑定性能を目指した。結果として2015年度のPlanCLEFの世界最高性能を上回ることを確認した。【項目3: 特徴量次元・パラメータ数の圧縮と実用化に向けた技術開発】VGGに代表される多層の畳込みニューラルネットワークでは、出力部分を含む最後の数層に全結合ニューラルネットワークを配備するため、パラメータ数が爆発的に増加する問題がある。この問題に対応するため、全結合ニューラルネットワークをやめ、空間ピラミッド手法で置き換えた。これにより、パラメータ数もメモリサイズも40%以上圧縮することができた。また精度向上も達成できた。
2: おおむね順調に進展している
【項目1】植物画像からの特徴量抽出はHOG, Fisherベクトルなどのハンドクラフト方式のアプローチと、深層学習に基づく畳み込みニューラルネットワーク特徴量との双方からのアプローチで取り組むことができた。一方、画像に注釈文を与えるアプローチでは顕著領域を利用して、高い精度で注釈文を付与することができ、背景と鑑定対象の植物が分離できれば、分類と注釈によるメタデータ付与というマルチモーダル化の道筋をつけることができた。【項目2】鑑定性能に関しては、PlantCLEF2015の国際コンテストを同じデータで優勝者の精度を上回ることができたので、予定通りの成果が出たと判定した。【項目3】【項目2】を重視する場合、パラメータ数や特徴量の次元数が増えて圧縮しにくいのが通常であるが、VGGの16-layerモデルの畳み込みネットワークで、全結合層を取り去り、これを空間ピラミッド型に改良することで、パラメータの減少に成功した。同時に高い精度をキープできた。
【項目1】植物の鑑定では、専門化でも細粒度で鑑定が難しい種類を判定できる技術の開発が必要である。更に背景にノイズが多い画像の場合、「顕著領域」や「アテンションモデル」などの技術の導入で、画像内のどこに鑑定対象があるか、また、それらに適切な注釈文を付与する技術の開発を行うことで、質問応答等、応用技術にも焦点を当てる予定である。マルチモーダル化に関しては、画像による特徴量抽出の洗練化とテキストによる精度の高い注釈の付与をメインターゲットとする。さらに、撮影場所の位置情報や、動きのある動物の鑑定に向けた他のモーダル情報に関しても対応できるよう技術的な検討を行う予定である。【項目2】植物の鑑定で、世界最高レベルの性能を出すには、畳み込みニューラルネットワークでの深層学習だけでなく、そもそも植物ですらない画像を混在させ、多ノイズ環境下であってもロバストに鑑定できる技術を開発することを目指す。また、精度の出にくい「樹皮」画像に関しては、混在する画像から樹皮画像のみを検出するフィルタの開発を目指す。【項目3】実用化を考慮する。そのため、前項であげている鑑定精度は最優先で維持するが、検索速度を上げるため、インデックスの圧縮や、多様な鑑定手段(注釈や意味的に類似する言葉や位置情報などから鑑定)に対応できる技術開発を目指す。
すべて 2016 2015
すべて 雑誌論文 (3件) (うち国際共著 2件、 査読あり 3件) 学会発表 (12件) (うち国際学会 2件) 産業財産権 (1件)
IEICE Transactions on Information and Systems
巻: E99-D ページ: 1,4
http://dx.doi.org/10.1587/transinf.2015EDL8212
Visual Computer
巻: 32 ページ: 217,241
http://dx.doi.org/10.1007/s00371-015-1146-3
ACM Transactions on Intelligent Systems and Technology
巻: 6 ページ: 56:1,21
http://dx.doi.org/10.1145/2700487