2010 Fiscal Year Annual Research Report
グラフ上に現れる記号列に対する文法処理手法の開発とその応用
Project/Area Number |
22700002
|
Research Institution | Ibaraki University |
Principal Investigator |
藤芳 明生 茨城大学, 工学部, 講師 (00323212)
|
Keywords | 情報基礎 / 形式言語理論 / グラフ理論 / アルゴリズム / 数式OCR |
Research Abstract |
平成22年度の研究成果で最も大きいものは、tree-widthの制限された一般のグラフに対し木オートマトンによって受理される全域木を発見する線形時間のアルゴリズムを開発したことである。直並列な無閉路有効グラフに限定すれば同様のアルゴリズムは既に開発していたが、その結果を一般のグラフに拡張した意味は大きい。この結果は数式OCRだけでなく、化学構造式OCR、化学式検索などに応用が可能である。 数式OCRの文法処理アルゴリズムのプロトタイプの作成を行った。文法モデルとして、研究代表者が得意とする単項・線形・文脈自由木文法を導入した。この文法モデルには立方時間で構文解析するアルゴリズムが得られているため、それの実装を行った。実装に用いた文法には、数式OCRの認識精度を改善させるために様々なチューニングを行った。 また、数式OCRの文法処理アルゴリズムに応用するために、拡張した最小全域木問題を考え、それを解くアルゴリズムの提案を行った。最小全域木問題は頂点ラベルなしグラフ上で考えるものであるが、この拡張した最小全域木問題では頂点ラベル付グラフ上で議論を行う。辺を結ぶ頂点のラベルの選択次第で、辺の重みが変わるというように拡張されているのである。数式OCRでは、頂点のラベルとは、各文字の認識候補を表し、辺の重みは、位置関係やバイグラムに基づいた認識結果の尤もらしさを表している。この拡張した最小全域木問題を解くための線形時間のアルゴリズムを開発し、提案を行った。
|