研究課題/領域番号 |
11480082
|
研究機関 | 国際日本文化研究センター |
研究代表者 |
山田 奨治 国際日本文化研究センター, 研究部, 助教授 (20248751)
|
研究分担者 |
笠谷 和比古 国際日本文化研究センター, 研究部, 教授 (90124198)
川口 洋 帝塚山大学, 経営情報学部, 助教授 (80224749)
柴山 守 大阪市立大学, 学術情報総合センター, 教授 (10162645)
加藤 寧 東北大学, 大学院・情報科学研究科, 助教授 (00236168)
小島 正美 東北工業大学, 工学部, 助教授 (60085420)
|
キーワード | 古文書 / 文字認識 / OCR / 知識ベース / 用例データベース / 文字データベース |
研究概要 |
平成12年度は、(1)古文書解読に関する専門知識の構造化、(2)古文書文字認識用辞書プロトタイプを用いた古文書文字認識研究、(3)辞書の拡充、(4)電子化古文書文字辞典の開発、の4点について研究を進めた。 (1)に関しては、金子借用証文約1,300件、約243,000文字を翻刻して用例データベースとして作成した。そこから慣用表現、頻出語句などの情報を抽出し、n-gramによる古文書翻刻支援システムのプロトタイプを作成した。プロトタイプシステムを被験者を用いて利用試験したところ、その有効性が統計的に確認できた。 (2)に関しては、前年度から実施しているニューラルネットを用いた古文書文字認識手法の開発を、継続して実施した。 (3)に関しては、(1)の古文書用例データベースの作成のほか、古文書翻刻時に使用する標準的な辞書のひとつである『くずし字解読辞典』(東京堂出版)に登場する文字パターンとテキスト情報約25,000件をデジタル化し、データベース化を完了した。来年度以降、このデータベースを利用して文字認識実験を実施する予定である。 (4)に関しては、(3)で作成したデータベースを利用して、読み、文字の外形、および筆順から古文書文字を検索できる携帯型の電子化古文書文字辞典を開発するために基礎研究を実施した。来年度に具体的な実装にとりかかる。
|