2001 Fiscal Year Annual Research Report
手書き文字OCR技術を援用した古文書翻刻支援システムの開発
Project/Area Number |
11558045
|
Research Institution | International Research Center for Japanese Studies |
Principal Investigator |
山田 奨治 国際日本文化研究センター, 研究部, 助教授 (20248751)
|
Co-Investigator(Kenkyū-buntansha) |
梅田 三千雄 大阪電気通信大学, 情報工学部, 教授 (30213490)
川口 洋 帝塚山大学, 経営情報学部, 助教授 (80224749)
柴山 守 大阪市立大学, 学術情報総合センター, 教授 (10162645)
加藤 寧 東北大学, 大学院・情報科学研究科, 助教授 (00236168)
石谷 康人 (株)東芝, 研究開発センター, 主任
|
Keywords | 古文書 / 文字認識 / OCR / 電子辞書 / 文字データベース |
Research Abstract |
1.古文書解読支援システムのユーザインタフェースの開発 平成12年度に、古文書解読知識を利用した証文類の翻刻支援システムを実装するにいたったのを受けて、本年度は古文書翻刻支援のための電子辞書のプロトタイプを実装した。このプロトタイプには2種類あり、第1のプロトタイプは、文字コードからくずし字を検索し、さらに例示された文字と類字した文字をオンラインとオフラインの文字認識技術の応用により検索する機能を持っている。第2のプロトタイプは、タブレット入力された文字と外形が似たくずし字をオフライン文字認識によって検索する機能を持っている。 2.古文書文字認識の高性能化 平成12年度までに開発済みの古文書文字認識部と文字切り出しツールを古文書用にさらにチューニングし、より高性能なものにするための研究を実施した。文字認識部では、少数の文字サンプルから多くの文字サンプルを自動的に生成する方法を研究した。文字切り出し法の研究では、マーカーで囲った文字を自動的に切り出すツールを作成し、文字データベース作成作業で利用した。また、古文書文字認識研究を推進するための、23万字に及ぶ古文書文字データベースをほぼ完成させ、その一部をすでに公開している。このデータベースでは、大阪市立大学所蔵の「伏見屋善兵衛文書」から上記の開発ツールを使用して1文字づつを切り出し、その翻刻文と対応させてあり、古文書オフライン文字認識研究のための基礎データになるとともに、前後の文脈情報を利用した文字認識の研究のためにも役立てうるものになっている。
|
Research Products
(3 results)
-
[Publications] 山田奨治ほか: "古文書翻刻支援システム(HCR)開発プロジェクト報告(2)"情報処理学会研究報告. 2001, 51. 9-16 (2001)
-
[Publications] 篠原早苗ほか: "SVMによる手書き類似文字認識の学習データ選択と認識精度に関する一考察"2001年電子情報通信学会ソサイエティ大会. D-12-8. 183 (2001)
-
[Publications] 橋本智広ほか: "天保郷帳における石高表記文字の個別認識"情報処理学会研究報告. 2002, 8. 55-62 (2002)