研究課題/領域番号 |
11558045
|
研究機関 | 国際日本文化研究センター |
研究代表者 |
山田 奨治 国際日本文化研究センター, 研究部, 助教授 (20248751)
|
研究分担者 |
梅田 三千雄 大阪電気通信大学, 情報工学部, 教授 (30213490)
川口 洋 帝塚山大学, 経営情報学部, 助教授 (80224749)
柴山 守 大阪市立大学, 学術情報総合センター, 教授 (10162645)
加藤 寧 東北大学, 大学院・情報科学研究科, 助教授 (00236168)
石谷 康人 東芝ディジタルメディア機器社, 主任
|
キーワード | 古文書 / 文字認識 / OCR / 文字切り出し / 文字データベース |
研究概要 |
平成12年度は、(1)文字認識用辞書プロトタイプを用いた古文書文字認識研究、(2)古文書文字解読に関する専門知識の構造化、(3)辞書の拡充、の3点について研究を進めた。 (1)に関しては、前年度にひきつづいてニューラルネットを用いた古文書文字認識手法の研究を進めた。 (2)に関しては、金子借用証文約1,000件の表題部分の自動切り出し手法と、つづけ字のなかから手作業によるペン書きで切り出された個別文字を自動的に抽出する方法について研究を進めた。その結果、これらの作業の自動化について、ある程度の見通しを得ることができた。 (3)に関しては、大阪市立大学所蔵の『伏見屋文書』の全文字を切り出してデータベース化するべく、手作業によるマーキングを実施した。その結果、約243,000文字が文字サンプルとして抽出された。来年度以降、これらの文字を(2)で開発した手法を用いてデータベース化する作業を進める。また、『宗門改帳』からあらたに16字種3,200文字を採字し、データベース化した。当データベースは、(1)の文字認識実験の素材として利用している。
|