研究課題/領域番号 |
14380182
|
研究機関 | 九州大学 |
研究代表者 |
鈴木 昌和 九州大学, 大学院・数理学研究院, 教授 (20112302)
|
研究分担者 |
岡本 正行 信州大学, 工学部, 教授 (50109196)
内田 誠一 九州大学, 大学院・システム情報科学研究院, 助教授 (70315125)
玉利 文和 福岡教育大学, 教育学部, 教授 (70036937)
大武 信之 筑波技術短期大学, 教育方法開発センター, 助教授 (10223851)
藤本 光史 福岡教育大学, 教育学部, 助教授 (20270241)
|
キーワード | 数式認識 / 文字認識 / 科学技術文書電子化 / 電子ジャーナル / 視覚障害者支援 / 行列の認識 |
研究概要 |
本年度は主として次の課題について研究した。 1.昨年度に続き、数式中の接触文字や分離文字の認識手法について研究し、全体の認識率向上に関する研究を行った。通常のテキスト領域において用いられる文字ラティス法を数式領域でも適用可能な形で拡張し、接触文字だけでなく分離文字にも対応できる数式中の文字・記号認識手法を開発した。また、昨年度から継続している数学論文の大規模な正解コード付きデータベース(Ground Truth)の拡充・整備を進め、そこから文字、記号、単語、数式の正解コード付き画像データベースを抽出して公開データベースを作成した。 2.OCRによる電子化文書では単に文字や数式を認識するだけでなく、書誌情報、章・節の段落情報、図・表の関連、数学では定義、定理、命題などの構成などの文書のレイアウト情報の解析が重要である。引用文献や定理・数式引用などの文書内ハイパーリンクの解析も重要である。今年度は数学論文誌について、このようなレイアウト解析の研究と実装実験を行い国際会議で報告した。 3.また、数学文書では関数のグラフなどが説明のためによく用いられている。今年度は、2次曲線、3次曲線や指数・対数関数、三角関数などのグラフ曲線を印刷文書から抽出し、どのような曲線かを認識する研究も行った。
|