研究課題/領域番号 |
15102001
|
研究機関 | 独立行政法人文化財研究所奈良文化財研究所 |
研究代表者 |
渡辺 晃宏 独立行政法人文化財研究所奈良文化財研究所, 平城宮跡発掘調査部, 史料調査室長 (30212319)
|
研究分担者 |
馬場 基 独立行政法人文化財研究所奈良文化財研究所, 平城宮跡発掘調査部, 研究員 (70332195)
山本 崇 独立行政法人文化財研究所奈良文化財研究所, 平城宮跡発掘調査部, 研究員 (00359449)
山田 奨治 独立行政法人文化財研究所奈良文化財研究所, 国際日本文化センター, 助教授 (20248751)
中川 正樹 東京農工大学, 共生科学技術研究部, 教授 (10126295)
柴山 守 京都大学, 東南アジア研究所, 教授 (10162645)
|
キーワード | 木簡 / 出土文字資料 / データベース / 赤外線写真 / 文字自動認識(OCR) / 漢字 / 文脈処理 |
研究概要 |
a 文字画像データベースの開発 ア、文字画像の切り出し:引き続き既存写真データの切り出しを行った(モノクロ写真約1000文字、赤外線写真約100文字、カラー写真約3000文字)。これにより文字画像の蓄積は延べ約10,500文字となった。なお、同一木簡の異なる画像データの切り出しが一括して行えるよう、切り出し方法の改良にも着手した。 イ、記帳ノートの電子化:引き続き記帳ノートのカラーマイクロ撮影を実施し、電子化を行った。今年度は約6800頁分を対象とし、これにより平城宮跡発掘調査部担当分の記帳ノートの撮影をほぼ完了した。成果はフィルム・頁ごとのデータ・記帳ノートの複本の形で得た。 ウ、「木簡字典」の改良:2005年2月8日に奈良文化財研究所のホームページ上で公開した「木簡字典」は、幸い諸方面から好評を博しており、2006年2月未現在アクセス件数は17000件を超えた。本年度は、昨年度課題として残した複数文字検索システムの開発に着手し、新システムによる公開の見通しを得た。次年度の早い段階において、拡充したデータによるヴァージョンアップを予定している。 b 文字画像鮮明化のためのシステムの開発 ア、ベータ版ソフトの改良:一昨年度開発したベータ版ソフト運用のデータを引き続き収集した。 イ、デジタルカメラなどの有効性の実験:墨が流れ、文字の痕跡が浮き上がって残っているだけの木簡について、赤外線斜光撮影の実験を行い、その有効性を確認した。 c 木簡解読のための支援データベース群の構築 ア、地名データベース:昨年度入力を完了した『和名類聚抄』に見える国・郡・郷名のデータについて内容の確認を行うとともに、出土木簡に見える地名を大幅に増補した。 イ、物品名データベース:『延喜式』にみえる調・庸・中男作物ほかの諸国貢進物の貢進名目・品目・数量について、のべ約3800件のデータ入力を行った。 d 文字自動認識システム(OCR)の開発 ア、木簡の文字解読支援システム「mokkan shop」の改良:昨年度開発したオフライン文字認識システム「mokkan shop」について、実用化に向けてその精度の向上を図った。 イ、文脈処理モジュールの設計、開発:昨年度入力を完了した『和名類聚抄』の地名によって、階層化された地名データベースを構築し、これに基づいた文脈処理モジュールを設計、開発した。そして、昨年度開発した木簡の文字解読支援システム「mokkan shop」に実装して実験を行った結果、9-11文字で構成される木簡の地名情報のうち6文字が欠損した場合にも、約74%の確率で上位10個の候補の中に正解を含めることができることができた。今後、人名・物品名など、地名以外の情報とリンクさせることによって、より有効な文脈処理の実現が期待される。
|