付加価値を持つ小徐本のデータベースを作成することが本研究の目的であり、その基礎資料作成のための効率的な手順の確立が本年度の目標であった。 小徐本の電子テキスト化とそれに関連付ける配置情報を持つ画像データ作成のために、第一段階の作業としてOCRソフトを利用して底本の各葉を単位とする透明PDFファイルの作成を進めている。 次に、このPDFファイルをTID形式に変換した上で、電子テキストと画像のマークアップに必要な行番号等の位置情報を入力し、更に電子テキストの正字変換と校正作業を行っている。この編集作業は全てUnicode外の文字も画面上での表示が可能なXEmacs CHISAE上で行うことにした。 編集後は、TIDファイルをTEIファイルに変換し、視覚的構造及び論理的構造両面のマークアップを行っている。電子テキストのマークアップに関しては、ほぼその形式は確立した。来年度は、メンテナンスの効率化を図るため、ファイルの分割・統合を考えたい。 画像のマークアップについては、TIDファイルをSVGエディタで表示可能なSPS形式に変換し、エディタで表示しながらTIDファイルの文字座標のずれを修正している。ただ、この作業はまだ非常に繁雑であるため、来年度は、効率化を目指したい。引用書データベースについては、本年度は『易』の引用の出典調査が終了した。 以上のうち8月までの状況については、「漢字と情報」No.7(京都大学人文科学研究所付属漢字情報研究センター6頁〜7頁)に簡単に報告した。尚、本研究で必要なtoolは全て守岡知彦氏(京都大学人文科学研究所)に開発して戴いたものである。
|