2005 Fiscal Year Annual Research Report
推論機能を有する木簡など出土文字資料の文字自動認識システムの開発
Project/Area Number |
15102001
|
Research Institution | National Research Institute Cultural Properties, Nara |
Principal Investigator |
渡辺 晃宏 独立行政法人文化財研究所奈良文化財研究所, 平城宮跡発掘調査部, 史料調査室長 (30212319)
|
Co-Investigator(Kenkyū-buntansha) |
馬場 基 独立行政法人文化財研究所奈良文化財研究所, 平城宮跡発掘調査部, 研究員 (70332195)
山本 崇 独立行政法人文化財研究所奈良文化財研究所, 平城宮跡発掘調査部, 研究員 (00359449)
山田 奨治 独立行政法人文化財研究所奈良文化財研究所, 国際日本文化センター, 助教授 (20248751)
中川 正樹 東京農工大学, 共生科学技術研究部, 教授 (10126295)
柴山 守 京都大学, 東南アジア研究所, 教授 (10162645)
|
Keywords | 木簡 / 出土文字資料 / データベース / 赤外線写真 / 文字自動認識(OCR) / 漢字 / 文脈処理 |
Research Abstract |
a 文字画像データベースの開発 ア、文字画像の切り出し:引き続き既存写真データの切り出しを行った(モノクロ写真約1000文字、赤外線写真約100文字、カラー写真約3000文字)。これにより文字画像の蓄積は延べ約10,500文字となった。なお、同一木簡の異なる画像データの切り出しが一括して行えるよう、切り出し方法の改良にも着手した。 イ、記帳ノートの電子化:引き続き記帳ノートのカラーマイクロ撮影を実施し、電子化を行った。今年度は約6800頁分を対象とし、これにより平城宮跡発掘調査部担当分の記帳ノートの撮影をほぼ完了した。成果はフィルム・頁ごとのデータ・記帳ノートの複本の形で得た。 ウ、「木簡字典」の改良:2005年2月8日に奈良文化財研究所のホームページ上で公開した「木簡字典」は、幸い諸方面から好評を博しており、2006年2月未現在アクセス件数は17000件を超えた。本年度は、昨年度課題として残した複数文字検索システムの開発に着手し、新システムによる公開の見通しを得た。次年度の早い段階において、拡充したデータによるヴァージョンアップを予定している。 b 文字画像鮮明化のためのシステムの開発 ア、ベータ版ソフトの改良:一昨年度開発したベータ版ソフト運用のデータを引き続き収集した。 イ、デジタルカメラなどの有効性の実験:墨が流れ、文字の痕跡が浮き上がって残っているだけの木簡について、赤外線斜光撮影の実験を行い、その有効性を確認した。 c 木簡解読のための支援データベース群の構築 ア、地名データベース:昨年度入力を完了した『和名類聚抄』に見える国・郡・郷名のデータについて内容の確認を行うとともに、出土木簡に見える地名を大幅に増補した。 イ、物品名データベース:『延喜式』にみえる調・庸・中男作物ほかの諸国貢進物の貢進名目・品目・数量について、のべ約3800件のデータ入力を行った。 d 文字自動認識システム(OCR)の開発 ア、木簡の文字解読支援システム「mokkan shop」の改良:昨年度開発したオフライン文字認識システム「mokkan shop」について、実用化に向けてその精度の向上を図った。 イ、文脈処理モジュールの設計、開発:昨年度入力を完了した『和名類聚抄』の地名によって、階層化された地名データベースを構築し、これに基づいた文脈処理モジュールを設計、開発した。そして、昨年度開発した木簡の文字解読支援システム「mokkan shop」に実装して実験を行った結果、9-11文字で構成される木簡の地名情報のうち6文字が欠損した場合にも、約74%の確率で上位10個の候補の中に正解を含めることができることができた。今後、人名・物品名など、地名以外の情報とリンクさせることによって、より有効な文脈処理の実現が期待される。
|
Research Products
(21 results)