2011 Fiscal Year Annual Research Report
ウェアラブルな文字認識視覚補助デバイスに関する研究
Project/Area Number |
22300194
|
Research Institution | Tohoku University |
Principal Investigator |
後藤 英昭 東北大学, サイバーサイエンスセンター, 准教授 (40271879)
|
Keywords | 画像認識 / 福祉工学 / 文字認識 / ウェアラブルカメラ / シーン文字検出 / 視覚障害者補助 |
Research Abstract |
視覚障害者に自立的な文字識別・理解の能力を提供し、QoL(生活の質)の向上を図るために、ウェアラブルな文字認識視覚補助デバイスの実現を目指して、看板や文書等のシーン中文字のリアルタイム抽出やトラッキング(追跡)などの要素技術を開発し、理論的・実験的な考察を行なった。 ヘッドマウント型のカメラにより、屋内外環境において評価実験用の動画データを収集した。前年度までに開発した、ウェアラブルカメラ用の文字抽出・トラッキング手法(ICDAR2009,2010年信学技報発表)をベースとして、より高精度で安定した手法の開発を行なった。一般物体の追跡に使用されているピラミッド型Lucas-Kanade法を用いて、まず画像中の特徴点を追跡した上で、その結果に文字領域検出結果を加味し、文字領域を選択的に追跡する手法を開発した。文字領域検出を先に行う従来手法と比較して、同一の文字領域から生じる重複した画像の数を約半数(平均約1.5枚)に抑えることができた。これにより、重複した音声出力が減り、視覚補助デバイスの利便性が大幅に改善される。 視覚障害者が環境中の看板などを見つけ、認識に適した文字画像を撮影できるようにするため、検出された文字候補領域の位置を音響によって利用者に提示する手法を開発した。上下方向の位置を提示するのに、HRTFを用いた従来の音場再生型に代わり、基準音程を付加した記号的な音響信号を用いる手法を開発した。また、複数領域の提示にも対応した。これにより、文字位置の正答率を46.3%(従来法)から98.3%まで大幅に向上させ、実用的な精度を実現できた。 ビデオレートのリアルタイム文字認識を実現するために、正準判別分析(CDA)と二分探索木を用いて日本語文字認識の高速化手法を開発した。さらに効率的な次元圧縮手法を開発、付加することで、前年度開発の手法と比べて約3.6倍の速度を得た。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
文字領域のトラッキング、および、音響信号を用いたユーザインタフェースに関しては、予想以上に良い性能が得られており、当初の計画以上に進展した。しかし、これらの処理を組み合わせてウェアラブルな視覚補助デバイスのプロトタイプを作成するまでには至っておらず、高精細画像による評価や、フィールドテストが不十分であることから、全体的には予定よりもやや遅れている。
|
Strategy for Future Research Activity |
前年度までに開発した個別の処理を組み合わせて、高解像度なカメラを装備した視覚補助デバイスのプロトタイプの製作を当初は優先させる。また、高精細画像を含むビデオ映像を収集し、評価用データセットを充実させる。これにより、実際の利用形態に近い環境でプロトタイプの評価が行えるようになるので、早期に未解決問題をあぶり出し、得られた知見を年度後半の改良手法の開発に役立てる。プロトタイプの実装は、学生などに補助を依頼して、効率的に作業を進める。
|