1990 Fiscal Year Annual Research Report
日本史史料全文テキスト・デ-タベ-ス構築のための効率的漢字入力システムの開発
Project/Area Number |
02551006
|
Research Institution | Japan Women's University |
Principal Investigator |
永村 眞 日本女子大学, 文学部, 助教授 (40107470)
|
Co-Investigator(Kenkyū-buntansha) |
吉田 早苗 東京大学, 史料編纂所, 助教授 (00110693)
山岸 常人 奈良国立文化財研究所, 藤原調査部, 主任研究官 (00142018)
|
Keywords | テキスト・デ-タベ-ス / 日本史史料 / 漢字OCR / 可変長デ-タ処理 |
Research Abstract |
1、機器の試験的稼働と問題点の抽出 平成2年9月に機器を導入し、OCR装置の基本的機能と、読取漢字文字列をデ-タベ-ス化するための可変長デ-タ処理システムの機能確認を前提に、多様な形態の既刊史料集を素材として、試験的な漢字文字列の読取処理を実施し、読取困難な活字組版や印刷状態の確認作業を進め、その問題点を明らかにした。 2、システム開発の検討 上記の作業を踏まえ、活字史料の効率的読取に不可欠の機能について検討を加え、その機能を実現するための、逸行配列文字列(双行、行間書等)の読取機能と、修飾文字列との関連定義機能を、当面のシステム開発の柱として決定した。 3、変換辞書と漢字字種について 当初、読取機能を支える変換辞書には、可能な限り多数の字種が収められることが望ましいと考えていたが、参照する辞書の規模と読取処理の効率は反比例することから、基本辞書とは別に、処理対象毎の頻出の字種の新規登録辞書をもたせる機能をシステム開発に追加した。 4、読取素材の状況について 読取処理にあたり、史料集の印刷状態(活字印刷、写植、写真製版の復刻)が読取効率を大きく左右することが明らかになり、読取素材として極力良質の活字印刷原本を採用することにした。
|