研究課題/領域番号 |
02551006
|
研究種目 |
試験研究(B)
|
配分区分 | 補助金 |
研究分野 |
日本史
|
研究機関 | 日本女子大学 |
研究代表者 |
永村 眞 日本女子大学, 文学部, 教授 (40107470)
|
研究分担者 |
吉田 早苗 東京大学, 史料編纂所, 助教授 (00110693)
山岸 常人 奈良国立文化財研究所, 主任研究官 (00142018)
小篠 洋一 タウ技研株式会社, 副社長
|
研究期間 (年度) |
1990 – 1992
|
キーワード | 全文テキストデータベース / 漢字OCR / 可変長処理システム / KWIC索引 / 漢字字体 / 醍醐雑事記 / 日本史史料 |
研究概要 |
日本史研究支援の史料全文テキストデータベース構築を促進するためには、史料原文の内容を人為的に加工する必要のない可変長データ処理システムの採用とともに、入力システムの抜本的な改善が必須の条件といえる。本研究では、可変長データ処理機能を備えるOSを採用するとともに、従来の漢字個々を認識し字単位でキーボードから入力する方式を離れ、漢字OCR装置を用いて活字化された漢字文字列を光学的に読取るという入力方式の実用化を図るものであった。そこで日本史史料の漢字字種や活字組の特性に配慮し、漢字OCRの読取効率を高め、さらには蓄積された漢字文字列の利用効率を高めるための新たなシステム開発を行った。まず読取効率を低下させる要因を明らかにし、登録漢字以外の字種で史料・史料群に頻出する漢字を外字として新規登録するシステムと、複雑な組版となる双行(割注)・傍注や行間書を効率的に読取るための逸行配列文字列自動読取システム、さらに蓄積した文字列データから一字(KWIC)索引を編成するシステム開発した。 これら新規システムを組み込んだ漢字OCRシステムを稼働させ、醍醐寺所蔵『醍醐雑事記』を素材に用いて、データベース構築作業を試み、その結果として、本システムが全文テキストデータベースの構築には有効な入力手段であることを確認した。将来的にハードウェアの飛躍的な機能向上にともない、より効率的な漢字OCRと処理システムの登場が期待されようが、あくまで現状の機器能力のもとで本システムは高い稼働効率を達成できたものと考える。
|