2002 Fiscal Year Annual Research Report
Project/Area Number |
14380184
|
Research Institution | International Research Center for Japanese Studies |
Principal Investigator |
笠谷 和比古 国際日本文化研究センター, 研究部, 教授 (90124198)
|
Co-Investigator(Kenkyū-buntansha) |
川口 洋 帝塚山大学, 経営情報学部, 助教授 (80224749)
加藤 寧 東北大学, 大学院・情報科学研究科, 助教授 (00236168)
柴山 守 大阪市立大学, 学術情報総合センター, 教授 (10162645)
石谷 康人 (株)東芝, 研究開発センター, 研究主務
梅田 三千雄 大阪電気通信大学, 総合情報学部, 教授 (30213490)
|
Keywords | 古文書 / 文字認識 |
Research Abstract |
平成14年度は、実験に使用する古文書文字データベースの拡充と、これまでに作成されたデータベースを利用して、既存の日本語文字認識アルゴリズムの適用可能な範囲と問題点を洗い出し、古文書に適したあらたな方法の検討を行った。研究に進展のあった項目は、以下の通りである。 (1)古文書文字データベースの拡充 少字種多サンプルの文字データベースとして、「宗門改帳」から採字したデータベースにあらたに16字種3,200文字のデータを作成・追加した。また、「伏見屋文書」から採字した20万字を超える文字データベースについて、翻刻文字との対照・校正作業を実施した。 (2)文字切出しと文字認識の協調動作についての研究 古文書に適した文字認識手法として、文字の切出しと認識を協調させる手法について検討を行った。初期切出し画像の文字認識結果によって再切出しを行う方法と、文字の切れ目の探索範囲を自動設定する方法について一定の成果があった。 (3)用例から得られる知識と文字認識の協調動作についての研究 定型がある古文書について、不可読文字の前後の文字をキーにして用例から正解候補を探す方法と、不可読文字の文字認識結果を融合させて、総合的に正解候補を探索する方法を検討した。 (5)筆順推定についての研究 すでに書かれた古文書文字からスケルトンを抽出し、筆順を推定する方法を検討した。 (6)学習データの生成手法 非線形正規化の応用によって、ひとつの文字から人工的に多くのサンプルを作り出す手法について検討した。この手法は、古文書文字のように1字種について多くのサンプルを集めることが困難な場合に有効である。
|
-
[Publications] 山田奨治, 柴山守: "古文書を対象にした文字認識の研究"情報処理. 43・9. 950-955 (2002)
-
[Publications] 山田奨冶, 和泉勇治, 加藤寧ほか: "類似文字検索機能をそなえた電子くずし字辞典の開発"情報処理学会研究報告. 2002・5. 43-50 (2002)
-
[Publications] 近藤博人, 柴山守ほか: "文字切出しを前提としない古文書標題認識"情報処理学会研究報告. 2003・5. 1-8 (2003)
-
[Publications] 安倍広多, 柴山守ほか: "『くずし字解読辞典』文字画像からの筆順抽出の試み"大阪市立大学学術情報総合センター紀要. 4. 19-23 (2003)
-
[Publications] 篠原早苗, 加藤寧ほか: "SVMを用いた手書き文字認識における学習データ選択と認識精度に関する一考察"電子情報通信学会技術研究報告. 102・708. 81-86 (2003)
-
[Publications] 川口洋: "『江戸時代における人口分析システム(DANJUR0 ver.20)』の構築・運用・利用"帝塚山大学学術論集. 9. 1-27 (2002)