研究概要 |
21年度は特徴グラフを用いて一文字の古文献中の文字を認識する技術を確立した. そのために,まず20年度までに実現してきた文字画像から特徴グラフを生成するプログラムの改良を行い,より正確な文字の構造を表現できる特徴グラフを生成可能とした. 次に,20年度までに検討してきた字母情報データベース(認識用辞書)に対して,その形式を見直すとともに,実際に認識実験を行うことができるように多数の文字を格納するなどの処理を行った.現在,字母情報データベース(認識用辞書)は,古文献中の既知の文字について,文献から切り出したままの文字画像,特徴グラフの頂点情報,特徴グラフを現画像に上書きした文字画像,ならびに文字の出典情報などが格納される構造となっている.今のところ字母情報データベース(認識用辞書)には,源氏物語(青表紙本)と変体仮名の手引きから切り出された約3000文字の情報が登録されている. さらに,20年度までに構築してきた文字認識アルゴリズムとそれを採用した認識プログラムを改良した.認識アルゴリズムについては,閾値を採用し,その値以下の適合度しか持たない文字については不明な文字として棄却する方式を採用した.また,認識プログラムについては,実証方式を見直し,その実行時間を短縮した. 次に,上記の認識用辞書を用いて評価実験を行った.評価実験では,93文字の平仮名に対して認識実験を行い,76.6%の認識率(棄却数は16文字)を得た.また,提案してきたアルゴリズムには2種類の方法があったが,評価実験の結果グリッド方式と呼ばれる方法がよりすぐれていることが明らかとなった.
|