研究課題/領域番号 |
25240028
|
研究種目 |
基盤研究(A)
|
研究機関 | 大阪府立大学 |
研究代表者 |
黄瀬 浩一 大阪府立大学, 工学(系)研究科(研究院), 教授 (80224939)
|
研究分担者 |
岩村 雅一 大阪府立大学, 工学(系)研究科(研究院), 准教授 (80361129)
岩田 基 大阪府立大学, 工学(系)研究科(研究院), 助教 (70316008)
内海 ゆづ子 大阪府立大学, 工学(系)研究科(研究院), 助教 (80613489)
|
研究期間 (年度) |
2013-04-01 – 2017-03-31
|
キーワード | 文書画像解析 / インタフェース / アイトラッカ / wordometer / reading-life log / 近似最近傍探索 / アノーテーション / 顔認識 |
研究概要 |
本研究は4ヵ年計画となっている。初年度は要素技術の洗練化を目標としている。得られた成果を項目ごとに以下に示す。 (1) 認識・検索:複雑背景下での文字認識、文字画像の大規模データベース(学習用)、文書タイプの認識(画像、あるいは視線の分布による)、顔認識、行動認識(瞬きの時系列データ、脳波、静電容量センサーを伴うネックバンドによる)などを開発した。いずれも、本研究を推進する上で重要な要素となる技術であるとともに、世界でもあまり類を見ないセンサーや認識方式に基づいている。 (2) インタフェース:カメラペンによる筆跡復元、注視やアイジェスチャを入力方式とするもの、ならびに得られた情報を重畳表示する方式について検討した。これらのインタフェースについては、現在、基礎的な検討段階にあり、すぐに利用できるレベルに到達しているわけではないが、改良の土台となる成果が得られたと考えている。 (3) Reading-Life Log:知識の源は読書にあるという考えから、読書の量と質の自動計測を行った。具体的には、読んだ文書の単語数を数える手法(万語計;wordometer)、読んだテキストを認識によって全て記録する手法(認識によるreading-life log)、さらには言語知識量の推定のため基礎的な手法(視線の分布を解析して理解困難な英単語を発見する手法)の検討を行った。使用したデバイスは、モバイル・アイトラッカであり、これによりユーザが見ている画像とその中の視線データを得ることができる。 (4) 要素技術の基盤となる技術:上記の要素技術の基盤となる技術の研究も行った。具体的には、タブレットPCのカメラを用いたアイトラッカの実現、ならびに画像照合などのエンジンとなる近似最近傍探索や逆近似最近傍探索のアルゴリズムを考案した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究項目として挙げた3つの項目、すなわち、認識・検索、知識記述、スマートフォン・アプリケーションのそれぞれについて順調に成果が得られている。 (1) 認識・検索:申請段階で研究項目としてあげていた、認識結果の統合による検証(文字認識の結果を複数フレームにわたって照合することで、より正しい結果を得る)、見る行為の分類、画像ならびに他のセンサデータを用いた行動認識のすべてについて、手法を提案すると共に、実験によって有効性を検証した。特に、文書のタイプ識別(画像特徴、視線分布、脳波による)については、当初想定していたよりも高い精度の処理を実現することに成功した。また、読んだ単語の数を測る万語計という全く新しい概念を提唱するとともに、実際にアイトラッカを用いて実現し、実験により評価した。この手法を文書解析・認識の分野で世界最大の国際会議で発表したところ、450を超える投稿論文の中から唯一の最優秀論文に選ばれた。 (2) 知識記述:知識記述の基礎的検討を行った。ただし、実際の記述方式を定めるレベルにまで到達することはできず、今後のさらなる検討が必要である。 (3) スマートフォン・アプリケーション: 成果還元のためのスマートフォン・アプリケーションをいくつか作成した。一つは文書にコメントを簡単に付けるシステムであり、ユーザはスマートフォンを文書にかざすだけで、他の人が付けたコメントを参照したり、自分がコメントを付与したりすることもできる。また、スマートフォンやタブレットなどのカメラ(ユーザの方を向いているもの)を用いて、人の視線データを得る手法も開発した。後者はスマートフォンやタブレットを通して本を見る限り、高価なアイトラッカを用いずとも、類似の成果を得ることができる、というものである。 以上のように、知識記述については十分とは言えない成果であるが、他については予想を上回る成果が得られた。
|
今後の研究の推進方策 |
(1) 認識・検索:認識・検索の2年目の課題は相互連携である.まず,認識・検索の中で相互連携を図る.例えば,物体認識と文字認識が連携すれば,物体が分かることによってそこに書かれている文字の可能性が狭まり,認識誤りを減らせる.行動認識については実環境への適用を図りつつ,連携を確立する.行動認識はpredicate認識を担うので,自ずとpredicateに適合するsubject, objectの物体の可能性が狭まるし,逆も真である.結果としてRDFを生成する認識装置がこの段階で構築される.このような相補的な認識を前期で 追求した後は,後期では高次知識とのインタラクションを考える.Semantic Desktopに蓄えられた個人の履歴や知識体系を援用し,より認識や解析の信頼性を高めていく.また,得た知識をSemantic Desktopに反映させることも行う. (2) 知識記述:相互連携が可能となれば,Semantic Desktopを構成する要素すべてが環境から取得可能となるので,記述を生成できる.問題は,生成される記述が誤りを含む点である.誤り訂正としては,時間軸方向での安定性を見る単純な方式から,確率モデルを用いるものまで,様々な可能性がある.これらを比較検討して,最良のものを採用する.もう一つの方策は,ユーザに直接聞くことであろう.このための方法として,ヘッドマウントディスプレイに選択肢を提示してジェスチャーで選ばせるという方式を構築する. (3) スマートフォン・アプリケーション:利用シーンのシナリオを考えながら前年度に策定したアプリケーションを実際に作成していく.可能なら早い段階で試験公開をして,フィードバックを得る.
|