本研究は大きく,(A)RTK-GNSS技術とスマートフォン内蔵センサに基づく超高精度位置測位技術の検証,(B)視覚障害者とのコミュニケーションを円滑にするためのインタフェースに関する研究,および(C)音声データや点字データのみで視覚障害者をサポートするためのインタフェースに関する検討を実施してきた.最終年度となる今年度は,特に(C)に関する研究を実施した. 具体的には,主に文書等をカメラで撮影した画像を対象として,その内容をテキストデータや音声データに変換して視覚障害者に伝える技術の開発と,視覚障害者をサポートする健常者のために点字で印刷された内容を,テキストデータに変換する技術の開発を実施した.いずれのシステムも深層学習をベースとした分類モデルをベースに開発した.特に,文書画像をテキストデータに変換するシステムは,Webシステムとして誰でも利用できる形で公開し,実証実験として視覚障害者の方に使っていただき評価を実施した.深層学習はレイアウト付き文書の構造を解析してテキスト化するモデルと,レイアウト付き文書のテキストの順序を最適化するモデルの2つに分けて実装した.データセットの量や計算量の問題で精度面で課題が残っているため,現時点では一部人手による作業が必要ではあるものの,実際にシステムを利用した視覚障害者からはポジティブなフィードバックを得ることが出来たほか,今後の改善点についても明らかとなった. 点字画像からテキストに変換する技術の開発は,先行研究として深層学習モデルの一つであるRetinaNetを用いた研究を参考とし,これまで光源方向を上側に固定する必要があった制約を取り除くために,様々な光源方向による点字画像をデータセットとして準備して学習を実施した.その結果,98%以上の精度で点字を認識することに成功している.これらの成果は国内学会にて既に報告済みである.
|