1. 文字・記号認識の精度向上 学術論文誌などの大量の文献を電子化する際に認識対象とする文書画像から自動的に文字抽出してカテゴリー毎にクラスタリングして、認識辞書に登録する手法による認識率向上を行った。出現頻度の低い数学記号に対してはクラスタリング結果を一目で見ることが出来る効率的に修正するインターフェースを開発する一方で、アルファベットなどのテキスト文字については自動判定処理で十分に効果があることを確認した。 2. 文書論理構造解析 学術文献の電子化や視覚障害者向けの教材電子化で必要となる文書論理構造解析についても、認識対象となる文書から章、節などのヘディングや命題記述部などの特徴をサンプリングにより抽出した特徴量を用いて全体の論理構造解析の精度向上を行う手法を実装し、作業効率が著しく向上することを確認した。 3. 図・表認識、行列認識 図表領域の検出・解析において、細線化処理を行った後に分岐点で切断し、各要素の線判定とその組み合わみの文字認識結果の候補の中から最適組み合わせを取得する手法を開発した。この問題はNPハードなため、前処理としての欲張り法と分割した部分グラフに対する縦方向・横方向の動的計画法を組み合わせることにより高速且つ効果的な解析手法を導入し、実装と評価テストを行った。 4. アクセシブルな出力形式 科学文書を視覚障害者にアクセス可能な形で出力する方法の検討を行い、アクセシブルなマルチメディアドキュメントの国際規格であるDAISYXMLによる数学的なコンテンツによる出力が出来るエディタの開発を行った。漢字だけでなく数学記号や数式構造についても数学の文書における文脈に依存する読みの調査を行い、DAISYのフォーマットの中で音声合成エンジンに正しい読み上げ法を指定する方法について検討と対応するユーザーインターフェースの開発を行った。
|