研究概要 |
本研究は学術雑誌等の科学技術文献を対象として,数式を含めた全文を読取るOCR(光学的文字読取り装置)の開発に寄与することを目的とし,ドイツ人工知能研究所(DFKI)が開発を行なっているオープンソースソフトOCRopusへの数式認識モジュールの組込みを行った.組込みに際しては,組込み位置の検討を行い,既存モジュールの機能を活用することでシステムとの親和性を高めた.数式が単独の行で出現するディスプレイ数式については,自動的に数式位置の判別および切出しを行い,モジュール化した数式認識によりMath-MLやLaTexでの出力を得ることに成功した.
|