2004 Fiscal Year Annual Research Report
推論機能を有する木簡など出土文字資料の文字自動認識システムの開発
Project/Area Number |
15102001
|
Research Institution | National Research Institute Cultural Properties, Nara |
Principal Investigator |
渡辺 晃宏 独立行政法人文化財研究所, 奈良文化財研究所・平城宮跡発掘調査部, 史料調査室長 (30212319)
|
Co-Investigator(Kenkyū-buntansha) |
馬場 基 独立行政法人文化財研究所, 奈良文化財研究所・平城宮跡発掘調査部, 研究員 (70332195)
山本 崇 独立行政法人文化財研究所, 奈良文化財研究所・平城宮跡発掘調査部, 研究員 (00359449)
山田 奨治 国際日本文化センター, 教授 (20248751)
中川 正樹 東京農工大学, 工学部, 教授 (10126295)
鈴木 卓治 国立歴史民俗博物館, 情報資料研究部, 助手 (70270402)
|
Keywords | 木簡 / 出土文字資料 / データベース / 赤外線写真 / 文字自動認識(OCR) |
Research Abstract |
a 文字画像データベースの開発 ア 文字画像の切り出し-既存写真データの切り出しを継続した(モノクロ写真約430文字、赤外線写真約480文字、記帳ノート約2,000文字)。文字画像の蓄積は計延べ約6,300文字となった。 イ、記帳ノートの電子化-木簡を解読した際に記録(見取図)である記帳ノートのカラーマイクロ撮影と電子化を継続した。約5700頁分を対象とし、昨年度と合わせて平城宮・京木簡約17万点の約三分の二となった。 ウ、「木簡字典」のWEB公開(2005年2月8日奈良文化財研究所のホームページ上)-「木簡字典」は、木簡に書かれた文字ごとの画像データベースで、文字種ごとに実際に書かれた字体の事例を、モノクロだけでなく、カラー、赤外線写真、記帳ノートも含めた複数の画像で紹介する画期的なシステムである。また、従来の木簡データベースのデータを用いて、その画像の文字が用いられた文脈がわかるようになっている。システムは本年度の開発で、公開した文字画像はアで切り出した延べ約6,300文字である。「木簡字典」はNHKニュースや朝日新聞、読売新聞でも取り上げられ、公開から約50日でアクス件数は2,500件に及び、古代の文字に関する画期的なデータベースとして好評を博している。なお、奈良文化財研究所以外の機関が行った調査で出土した資料についてもデータベースに収録できるよう調整を進めている。 b 文字画像鮮明化のためのシステムの開発 後述の文字自動認識システムに付随して、墨の部分を鮮明化する画像処理システムの開発に着手した。また、昨年度開発したベータ版ソフトの改良も行い、これを運用するためのデータの収集を継続している。 c 木簡解読のための支援データベース群の構築 『和名類聚抄』に見える地名(国・郡・郷名-郷レヴェルで約4,040件)、及び日本古代の人名(約26,600名の人名と居住地域名)のデータ入力を完了した。 d 文字自動認識システム(OCR)の開発 木簡の文字解読を支援するシステム「mokkan shop」を試験開発した。「mokkan shop」は、オフライン文字認識処理シズテムで、文字画像の切り出し、墨部の抽出、文字認識、認識結果の検証という手順で、10個の認識候補を表示して木簡解読を支援するものである。本年度認識対象とできた文字パターンは約241字種1,270パターンで、墨の部分を抽出するための画像処理手法、及び欠損文字の認識についても有効な文字認識システムの開発に着手し、その有効性を確認することができた。
|
Research Products
(14 results)