研究概要 |
本研究は大別して,A.音声関係のシステム開発,B.点字関係のシステム開発,C.PDF科学文書用OCRシステム開発の3つの部分から構成される。本年度は,それぞれについて次の研究開発を行った。 Aについては,PDF科学文書の認識結果を音声で利用するための音声出力機能付き数学文書エディタを研究開発している。本年度はこれに改良を加え,これまでのMicrosoft SAPI4準拠の音声出力エンジンを拡張し,SAPI5音声で読み上げを行う試作版を開発した。また,読み上げ結果をテキスト形式やDAISY形式,Wave形式などのファイルとして出力するためのモジュールを試作した。日本語・英語以外の欧州言語で読み上げを行う多言語版開発に向けた基礎研究も行った。 Bについては,前年度からPDF科学文書の認識結果を,視覚障害者用に触読図で出力するシステムを研究開発している。視覚障害者自身が利用可能な触読図作図システムを更に改良し,コンピュータ画面上の画像をトレースすれば,自動的にこの作図システムのコマンドが生成され,触読図が作成できる機能を追加した。また,投影図や射影図を容易に作成するため3次元空間座標系上に定義した直線や曲線からなる空間線図形について,始点と方向ベクトルを定めれば,平面上に平行射影または中心射影して,触読図を作図する機能を実装した。 Cについては,PDFファイルに多く含まれるカラー画像・文字を原因とする誤認識を回避するため,Textureとしてファイルに格納されているカラー情報を削除する前処理技術を研究開発した。この結果,比較的濃い青と赤の画像については白黒スキャン画像と同程度に認識できるようになった。また,多言語対応のOCRエンジンを導入して,テキストに拡張ラテン文字を含む科学文書の認識ができるようにするための研究を行った。
|