研究概要 |
本年度は古文書データベースにおける検索手法を確立するために,検索に適した局所的特徴量を明らかにすることに絞って研究を進めた.主要な成果は以下のとおりである. 1 古文書のスリット化と固有空間法を用いた検索 文字列検索を行うにあたって,文字認識手法によらず画像の部分マッチング問題として検索を行う方法である.文字列画像をスリット状に切り出すことにより文字列画像はスリット画像のシーケンスとして表現され,更にこれに固有空間法を適用して低次元化することにより効率的なマッチングが可能となる.また,マッチングに際してDTW(dynamic time warping)を用いて文字の伸縮変形に対応させることにより,更に精度を高めることができる.江戸末期の毛筆文書画像を対象にキーワードの検索を行った実験では,平均適合率73〜93%を示した. 2 勾配ベクトルの分布情報を用いた検索 上記手法に特徴量の部分で改良を加える実験を行ったところ,良好な結果を得た.ここで導入した特徴量は,勾配ベクトルの分布情報を用いるというアイデアである.本研究ではこのアイデアを文字検索に適用するための特徴量の構成法について提案するとともに,江戸末期の毛筆文書画像を対象にキーワード検索を行う実験により,その効果を検証した.この改良の結果,平均適合率は95〜98%に到達した. 3 局所特徴量による照合の応用 文書画像に対するインデックス作成の一手法として,頻出語句の抽出およびその出現パターンを記述することと,これまで述べたような特徴量に基づくマッピングを併用することにより,高精度なトランスクリプトマッピングを行う手法を開発した.江戸末期の毛筆文書画像を対象に本システムの適用実験を行った結果は良好であり,実用上問題のない水準の出力を得ることが可能であった. これらに加えて検索を高速化するためのアルゴリズムについても検討を行った.
|