研究概要 |
22年度は特徴グラフを用いて,古文献に書かれた複数の文字からなる一連の文字列を認識する技術を確立した. そのために,まず22年度までに実現してきた文字画像から特徴グラフを生成するプログラムの改良を行い,そのプログラムを適用して認識対象の文字列を特徴グラフ化するプログラムを作成した. 次に,21年度までに作成してきた認識用辞書の構造を見直し,辞書文字をその構造の類似性に着目してグループ(クラスター)化し,クラスターに属する辞書文字が必ず持つ構造を表す代表グラフを定義した.その後,全てのクラスターの代表グラフを構成する連結成分(基礎成分)からなる基礎成分表を提案した.新たな認識用辞書は,各辞書文字の画像と特徴グラフ,辞書文字の集合であるクラスターとその代表グラフ,そして基礎成分表から構成される. 新しい認識用辞書を用いた続け字認識アルゴリズムを提案し実装した.提案したアルゴリズムの概要は,(1)認識対象文字列の画像から特徴グラフGを作成する,(2)特徴グラフGから基礎成分表に含まれる基礎成分と同型の部分グラフRを求める,(3)同型部分グラフRの周囲の領域を辞書文字のサイズに応じてトリミング(切り出し)する,(4)切り出した領域に含まれる特徴グラフGの部分グラフと辞書に含まれる文字の特徴グラフとを比較し適合度を計算する,(5)切り出した領域に含まれる部分を最も適切な適合度を持つ辞書文字として認識する,というものである. 実装したプログラムを用いて評価実験を行った.現状では,源氏物語に含まれる続け字を含む文字列(7文字からなる)の画像を入力とした例において,6文字の認識が出来ている.
|