• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

日本史史料全文テキスト・データベース構築のための効率的漢字入力システムの開発

研究課題

研究課題/領域番号 02551006
研究種目

試験研究(B)

配分区分補助金
研究分野 日本史
研究機関日本女子大学

研究代表者

永村 眞  日本女子大学, 文学部, 教授 (40107470)

研究分担者 吉田 早苗  東京大学, 史料編纂所, 助教授 (00110693)
山岸 常人  奈良国立文化財研究所, 主任研究官 (00142018)
小篠 洋一  タウ技研株式会社, 副社長
研究期間 (年度) 1990 – 1992
研究課題ステータス 完了 (1992年度)
配分額 *注記
14,800千円 (直接経費: 14,800千円)
1992年度: 2,400千円 (直接経費: 2,400千円)
1991年度: 2,900千円 (直接経費: 2,900千円)
1990年度: 9,500千円 (直接経費: 9,500千円)
キーワード全文テキストデータベース / 漢字OCR / 可変長処理システム / KWIC索引 / 漢字字体 / 醍醐雑事記 / 日本史史料 / テキスト・データベース / KWICK索引 / テキスト・デ-タベ-ス / 可変長デ-タ処理
研究概要

日本史研究支援の史料全文テキストデータベース構築を促進するためには、史料原文の内容を人為的に加工する必要のない可変長データ処理システムの採用とともに、入力システムの抜本的な改善が必須の条件といえる。本研究では、可変長データ処理機能を備えるOSを採用するとともに、従来の漢字個々を認識し字単位でキーボードから入力する方式を離れ、漢字OCR装置を用いて活字化された漢字文字列を光学的に読取るという入力方式の実用化を図るものであった。そこで日本史史料の漢字字種や活字組の特性に配慮し、漢字OCRの読取効率を高め、さらには蓄積された漢字文字列の利用効率を高めるための新たなシステム開発を行った。まず読取効率を低下させる要因を明らかにし、登録漢字以外の字種で史料・史料群に頻出する漢字を外字として新規登録するシステムと、複雑な組版となる双行(割注)・傍注や行間書を効率的に読取るための逸行配列文字列自動読取システム、さらに蓄積した文字列データから一字(KWIC)索引を編成するシステム開発した。
これら新規システムを組み込んだ漢字OCRシステムを稼働させ、醍醐寺所蔵『醍醐雑事記』を素材に用いて、データベース構築作業を試み、その結果として、本システムが全文テキストデータベースの構築には有効な入力手段であることを確認した。将来的にハードウェアの飛躍的な機能向上にともない、より効率的な漢字OCRと処理システムの登場が期待されようが、あくまで現状の機器能力のもとで本システムは高い稼働効率を達成できたものと考える。

報告書

(4件)
  • 1992 実績報告書   研究成果報告書概要
  • 1991 実績報告書
  • 1990 実績報告書
  • 研究成果

    (3件)

すべて その他

すべて 文献書誌 (3件)

  • [文献書誌] 永村 眞: "日本史史料全文テキストデータベースの構築と漢字OCR" オンライン検索(日本端末研究会). 12-4. 161-168 (1991)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      1992 研究成果報告書概要
  • [文献書誌] Nagamura, Makoto: "Construction of the Full-Text Database of Japanese Historical Materials and Kanji-OCR" Online-Kensaku. 12-4. 161-168 (1991)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      1992 研究成果報告書概要
  • [文献書誌] 永村 眞: "日本史史料会文テキストデ-タベ-スの構築と漢字OCR" オンライン検索. 13. 1-20 (1991)

    • 関連する報告書
      1991 実績報告書

URL: 

公開日: 1990-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi