研究課題
平成14年度は、実験に使用する古文書文字データベースの拡充と、これまでに作成されたデータベースを利用して、既存の日本語文字認識アルゴリズムの適用可能な範囲と問題点を洗い出し、古文書に適したあらたな方法の検討を行った。研究に進展のあった項目は、以下の通りである。(1)古文書文字データベースの拡充少字種多サンプルの文字データベースとして、「宗門改帳」から採字したデータベースにあらたに16字種3,200文字のデータを作成・追加した。また、「伏見屋文書」から採字した20万字を超える文字データベースについて、翻刻文字との対照・校正作業を実施した。(2)文字切出しと文字認識の協調動作についての研究古文書に適した文字認識手法として、文字の切出しと認識を協調させる手法について検討を行った。初期切出し画像の文字認識結果によって再切出しを行う方法と、文字の切れ目の探索範囲を自動設定する方法について一定の成果があった。(3)用例から得られる知識と文字認識の協調動作についての研究定型がある古文書について、不可読文字の前後の文字をキーにして用例から正解候補を探す方法と、不可読文字の文字認識結果を融合させて、総合的に正解候補を探索する方法を検討した。(5)筆順推定についての研究すでに書かれた古文書文字からスケルトンを抽出し、筆順を推定する方法を検討した。(6)学習データの生成手法非線形正規化の応用によって、ひとつの文字から人工的に多くのサンプルを作り出す手法について検討した。この手法は、古文書文字のように1字種について多くのサンプルを集めることが困難な場合に有効である。
すべて その他
すべて 文献書誌 (6件)