2006 Fiscal Year Annual Research Report
高精度数式認識と科学技術文書電子化システム実用化のための研究開発
Project/Area Number |
18300035
|
Research Institution | Kyushu University |
Principal Investigator |
鈴木 昌和 九州大学, 大学院数理学研究院, 教授 (20112302)
|
Co-Investigator(Kenkyū-buntansha) |
内田 誠一 九州大学, 大学院システム情報科学研究院, 助教授 (70315125)
岡本 正行 信州大学, 工学部, 教授 (50109196)
玉利 文和 福岡教育大学, 教育学部, 教授 (70036937)
藤本 光史 福岡教育大学, 教育学部, 助教授 (20270241)
金堀 利洋 筑波技術大学, 障害者高等教育センター, 助教授 (00352568)
|
Keywords | 数式認識 / 文字認識 / 科学文書電子化 / 電子ジャーナル / 視覚障害者支援 |
Research Abstract |
1.データベース 本年度は、本研究の初年度であり、今後の研究の基盤となるデータベース整備に尽力した。前年度までの研究で作成した正解付き文字・数式画像データベースを更に詳細に点検・整備して、InftyCDB-1〜InftyCDB-3と3つのデータベースにして公開した(http://www.inftyproject.org/)。内外の研究者により、公開から今日まで、ほぼ毎週複数の内外の研究機関(研究者)によってダウンロードが行われた。また、国際会議でも配布した。 また、著作権法上の問題があり、公開はしていないが、数学の論文誌や単行本の文書画像に文字・数式のコード・リンクだけでなく文書論理構造のタグも含めた詳細なGround Truthの5000頁を超すデータベースも作成した。 2.詳細識別 あらたに、サポートベクトルマシンを用いた数学記号認識の開発を行った。サポートベクトルマシンは原理的に2クラス識別機であるが、従来の認識エンジンとConfusion Matrixを用いて組み合わせることにより、効果的な詳細識別器を構成することが可能であり、認識率の向上に大きく寄与することを実験により確認した。特に、フォント識別能力が非常に高く、数式中に現れるスクリプト体文字やドイツ文字、類字ラテン文字をもつギリシャ文字の識別などに効果が期待できることを確認した。 3.本研究は理系分野の視覚障害者支援技術としての意味も持っている。日本語の数学文書の認識結果を点字変換する場合に漢字混合文を分かち書き平仮名文に変換する必要があるが、専門用語を多く含む文書に対応する高精度な変換ソフトが存在しないため、独自に数学用の日本語分かち書き仮名変換プログラムを開発した。このプログラムは数学書の認識補正にも利用な形で開発を行っていて、今後の日本語数学文書認識の高精度化の一役を担う予定である。
|
Research Products
(6 results)