研究分担者 |
藤本 光史 福岡教育大学, 教育学部, 助手 (20270241)
白石 正人 福岡教育大学, 教育学部, 助手 (70216183)
岩元 隆 福岡教育大学, 教育学部, 助教授 (30232713)
桑野 博 福岡教育大学, 教育学部, 助教授 (50036886)
上村 英樹 福岡教育大学, 教育学部, 教授 (00036906)
|
研究概要 |
通常の墨字を自動的に点訳するソフトは幾つか市販されている。これらのソフトは,「日本語や英語文章」は,ほぼ完全に点訳してくれるが,数式には対応していない。数式を含む科学技術文書の自動点訳を行なうコンピュータシステムの開発が必要である。数式を含む文書は,L^AT_EX文書で書かれることが多い。L^AT_EX文書を点字に翻訳するシステムが開発されている。このシステムで問題になるのが,L^AT_EX文書で使用されるマクロや内部コマンドである。Dvi(Device Independent)フャイルを解析して,出来るだけ本来の文書を忠実に再現するシステムが開発されれば,上記の問題は解決される。我々は,DViフィルを元のL^AT_EX文書(ソースフャイル)へ再現する研究をおこなって来た。この研究では,数式や文書のLayout解析を行なう部分を勢力的におこない,実用化の目処も出来つつある。また,印刷物として得られる数式を含む科学技術文書の点訳を行なう場合には,スキャナー等で読まれた,画像フャイルをテキストフャイルへ変換するOCR(Optical Character Recginition)の開発が必要である。数学記号を認識して数式の構造解析を行なう商用OCRはまだ市販されていない。本研究グループは数式認識の研究の推進をより一層推し測るべきだと思い、本研究を計画した。しかし,数式をテキスト化するシステムはまだ実用化されていない。数式を含む文書を読取るOCRの開発の現状と問題点と本研究の成果で主なものは,以下のとうりである。 1. 日本語と数学記号いずれも高精度で認識するOCRエンジンの開発が必要である。 2. 鮮明に印刷された数式を含む科学技術文書を読取るOCR,エンジンの実用化も数年後には出来る目処が出来つつある。ただし,数学記号の認識では,切れ文字や接触文字の認識を正確に行なう文字認識エンジンの開発には,まだまだ多くの課題がある。 3. 市販されている日本語OCRを有効に活用し,数式/日本語領域を分割するシステムの実用化の目処が出来た。
|