2006 Fiscal Year Annual Research Report
推論機能を有する木簡など出土文字資料の文字自動認識システムの開発
Project/Area Number |
15102001
|
Research Institution | National Research Institute Cultural Properties, Nara |
Principal Investigator |
渡辺 晃宏 独立行政法人文化財研究所奈良文化財研究所, 都城発掘調査部, 史料研究室長 (30212319)
|
Co-Investigator(Kenkyū-buntansha) |
馬場 基 独立行政法人文化財研究所奈良文化財研究所, 都城発掘調査部, 史料研究室研究員 (70332195)
山本 崇 独立行政法人文化財研究所奈良文化財研究所, 都城発掘調査部, 史料研究室研究員 (00359449)
山田 奨治 国際日本文化センター, 助教授 (20248751)
中川 正樹 東京農工大学, 共生科学技術研究部, 教授 (10126295)
柴山 守 京都大学, 東南アジア研究所, 教授 (10162645)
|
Keywords | 木簡 / 出土文字資料 / データベース / 赤外線写真 / 文字自動認識(OCR) / 漢字 / 文脈処理 |
Research Abstract |
a 文字画像データベースの開発 ア、文字画像の切り出し:引き続き既存木簡写真データの切り出しを行い、これにより文字画像の蓄積は延べ約15,000文宇となった。なお、同一木簡の異なる画像(記帳ノートも含む)データの切り出しが一括して行えるように切り出し方法を改良し、データの切り出しの効率を飛躍的に高めることができた。 イ、記帳ノートの電子化:引き続き記帳ノートのカラーマイクロ撮影を実施し、電子化を行った。今年度は飛鳥・藤原地区の木簡の記帳ノート約4000頁分を対象とした。これにより奈良文化財研究所で発掘した木簡の記帳ノートの撮影をほぼ完了した。成果はフィルム・頁ごとのデータ・記帳ノートの複本の形で得た。 ウ、「木簡字典」の改良:奈良文化財研究所のホームページ上で公開している「木簡字典」について、昨年度着手した複数文字検索システムの開発を完成し、2007年2月20日新システムへの切り替えを行った。単数文字検索の旧ヴァージョンは2006年2月までに28,000件を超えるアクセスを得たが、好評を得ている。また、これと合わせて切り出しデータの蓄積に基づいて、画像データの大幅な増補を実施した。現在の収録木簡点数はカラー約800点・モノクロ約500点・赤外約120点・記帳約300点、文字種類1,049種、文字数約15,000文宇である。これにより、約1,500種といわれる木簡に使われる文字のうち、主要な文字はほぼカヴァーすることができるようになった。 b 文字画像鮮明化のためのシステムの開発 ア、べータ版ソフトの改良:2003年に度開発したべータ版ソフト運用のデータを引き続き収集した。 イ、デジタルカメラなどの有効性実験:さまざまな木簡の赤外線撮影を実施しその有効性を確認しデータを蓄積した。 c 木簡解読のための支援データベース群の構築 ア、昨年度までに入力した地名・人名・物品名のデータを文脈処理モジュールに組み込み、文字自動認識システム「mokkan shop」試作版に実装して、その釈読効率の向上に貢献した。 イ、木簡釈文へのタグ付け実験のための基礎作業を行った。 d 文字自動認識システム(OCR)の開発 ア、木簡の文字解読支援システム「mokkan shop」試作版の頒布:昨年度開発したオフライン文字認識システム「mokkan shop」の試作版の頒布:昨年度開発したオフライン文字認識システム「mokkan shop」の試作版を完成させ、2006年12月、木簡学会第28回研究集会(於奈良文化財研究所)で全国の木簡研究者を対象にデモを行った。また、希望者50人(海外を含む)に試作版を頒布して実際にご利用いただき、その結果に基づいて2007年度に改良を加えるべく、アンケートの実施を準備している。 イ、文脈処理モジュールの実用化:昨年度開発した地名・人名・物品名の文脈処理モジュールを上記「mokkan sh.op」試作版に実装し、その釈読の有効性を高めるのに成功した。 ※これまでa〜dまでの独立した項目として進めてきた今回の研究開発を、木簡釈読支援システムとして一元化することについても一定の見通しを得ることができた。
|
Research Products
(18 results)