研究課題/領域番号 |
11410090
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
日本史
|
研究機関 | 大阪市立大学 |
研究代表者 |
柴山 守 大阪市立大学, 学術情報総合センター, 教授 (10162645)
|
研究分担者 |
並木 美太郎 東京農工大学, 工学部, 助教授 (10208077)
塚田 孝 大阪市立大学, 大学院・文学研究科, 教授 (60126125)
山田 奨治 国際日本文化研究センター, 研究部, 助教授 (20248751)
星野 聰 (星野 聡) 京都大学, 名誉教授 (90025867)
川口 洋 帝塚山大学, 経営情報学部, 助教授 (80224749)
大島 真理夫 大阪市立大学, 経済学部, 教授 (30128730)
|
研究期間 (年度) |
1999 – 2001
|
研究課題ステータス |
完了 (2001年度)
|
配分額 *注記 |
5,900千円 (直接経費: 5,900千円)
2001年度: 1,400千円 (直接経費: 1,400千円)
2000年度: 2,400千円 (直接経費: 2,400千円)
1999年度: 2,100千円 (直接経費: 2,100千円)
|
キーワード | 古文書画像 / 文字認識 / OCR / 文字切出し / 認識辞書 / 古文書翻刻 / 古文書認識 / 古文書翻刻支援 / 近世文書 / 自動読み取り |
研究概要 |
本研究の目的は、近世文書を対象に古文書OCR(Optical Character Reader-本研究では、自動読み取りに解釈する)の実現を目指して、古文書の文字認識におけるメカニズムを解明し、基礎的で限定的な文字認識システムの開発によって、既存の史料を新しい視点で読み直し、解釈する機会を与えて、日本史研究を援用しようとする試論的な研究である。 本年度の研究実績は、以下のとおりである。 (1)古文書文字認識辞書の構築では、証文類古文書に標記される全文字を対象に約24万文字の文字認識辞書を構築するための文字切出し準備・及び自動抽出プログラムを開発した。 (2)古文書文字の切出し・認識の基礎的研究では、古文書画像のレイアウト認識を行い、標題の自動抽出を目指す研究を行うと共に従来方式とは異なる文字認識実験を行った。 (3)n-gramによる翻刻支援では、2-gram、及び3-gramでの有効性について確認した。 (4)古文書文字認識過程において、従来型の正規化過程では・類似性が高く問題点の研究を進めた。 証文類古文書から標題のみを切出して、認識実験が行える標題文字辞書データベースを構築した。標題数は約900標題、文字種192種ですでに公開している。 なお、研究成果については、裏面の雑誌論文のほか、研究成果(中間)報告書「古文書翻刻支援システムの研究」(1)を平成12年3月に、同(2)を平成13年3月に刊行している。
|