2000 Fiscal Year Annual Research Report
手書き文字OCR技術を援用した古文書翻刻支援システムの開発
Project/Area Number |
11558045
|
Research Institution | International Research Center for Japanese Studies |
Principal Investigator |
山田 奨治 国際日本文化研究センター, 研究部, 助教授 (20248751)
|
Co-Investigator(Kenkyū-buntansha) |
梅田 三千雄 大阪電気通信大学, 情報工学部, 教授 (30213490)
川口 洋 帝塚山大学, 経営情報学部, 助教授 (80224749)
柴山 守 大阪市立大学, 学術情報総合センター, 教授 (10162645)
加藤 寧 東北大学, 大学院・情報科学研究科, 助教授 (00236168)
石谷 康人 東芝ディジタルメディア機器社, 主任
|
Keywords | 古文書 / 文字認識 / OCR / 文字切り出し / 文字データベース |
Research Abstract |
平成12年度は、(1)文字認識用辞書プロトタイプを用いた古文書文字認識研究、(2)古文書文字解読に関する専門知識の構造化、(3)辞書の拡充、の3点について研究を進めた。 (1)に関しては、前年度にひきつづいてニューラルネットを用いた古文書文字認識手法の研究を進めた。 (2)に関しては、金子借用証文約1,000件の表題部分の自動切り出し手法と、つづけ字のなかから手作業によるペン書きで切り出された個別文字を自動的に抽出する方法について研究を進めた。その結果、これらの作業の自動化について、ある程度の見通しを得ることができた。 (3)に関しては、大阪市立大学所蔵の『伏見屋文書』の全文字を切り出してデータベース化するべく、手作業によるマーキングを実施した。その結果、約243,000文字が文字サンプルとして抽出された。来年度以降、これらの文字を(2)で開発した手法を用いてデータベース化する作業を進める。また、『宗門改帳』からあらたに16字種3,200文字を採字し、データベース化した。当データベースは、(1)の文字認識実験の素材として利用している。
|
Research Products
(3 results)
-
[Publications] 山田奨治,柴山守: "n-gramによる古文書証文類翻刻支援の検討"人文科学とコンピュータシンポジウム論文集. 2000. 185-192 (2000)
-
[Publications] 尾崎浩司,柴山守 ほか: "古文書画像の標題文字セグメンテーション"人文科学とコンピュータシンポジウム論文集. 2000. 279-286 (2000)
-
[Publications] 柴山守: "証文類古文書標題の文字認識辞書構築とその利用について"京都大学大型計算機センターセミナー報告. (掲載予定).