研究概要 |
本研究では,変体仮名の使用頻度情報を用いて古文献の時代定位を行う事を目的とする.そのためには,変体仮名を含む古文献上の続け字を文字認識する技術が必要となる.本年度は,古文献上に記載された1文字を対象として文字認識を行う技術を提案・実装した. 1)昨年度までに提案した古文献上に記載された1文字の構造を表現する「特徴グラフ」の生成アルゴリズムについて,a)クラスタリング処理,曲頂点追加処理等のアルゴリズムの改善,b)2次クラスタリング処理と直線近似処理の追加,などを行った.これにより,文字の形状をより厳密に表現できるように「特徴グラフ」の生成アルゴリズムを改善できた. 2)1)で改善したアルゴリズムを用いて,古文献上の一文字のスキャン画像から「特徴グラフ」を生成するシステムを実装した. 3)2)で実装したシステムで100種類程度の文字の特徴グラフを作成し,目視にて確認することで改善したアルゴリズムの有用性を確認した. 4)2つの特徴グラフの類似性の尺度である「適合度」を定義し,その算出アルゴリズムを提案した. 5)4)で提案したアルゴリズムをJavaにて実装し,同字種の複数文字について適合度がどのようになるか評価実験を行った. 6)文字認識に文字認識用の辞書として利用する「文字構造データベース」のスキーマを設計し,データの登録,検索,変更等が行えるシステムを設計・構築した. 7)6)で実装したシステムに対して,変体仮名辞典に掲載されている変体仮名の画像データから生成した特徴グラフとその他の文字情報を登録し,文字構造データベースを構築した.
|