本研究は、日本の内閣文庫(国立公文書館)に所蔵され、孤本である『全相平話』の二種の電子テキスト化を試みたものである。 この電子テキスト構築においては、現在一般的であるデータ構築とは異なった試みを行っている。 一つは、文字コードの問題である。この「全相平話二種データ」は、Unicode (ISO-10646-1・UCS-2)を使用することによって、はたしてUnicodeが古典データ構築の用途に向いているかどうかの問題を検証してみた。またこれは同時に、現在提供されているOSやソフトウェアなどのツールが、どこまでUnicodeに対応しているかを確認することともなった。 もう一つは、データの公開の問題である。「全相平話二種データ」は、構築作業と同時にインターネット上におけるデータ公開を行っているが、これについても、受け手のコンピュータ環境を意識した上で、ある程度の制約を受けざるを得なかった面がある。そして、おそらく世界でもまだ数少ないUTF-8ベースの公開を行った。 さらに、文字コード問題とも密接な関係を持つが、画像データと電子テキストの問題も重要である。画像データと電子テキストの組み合わせ、という面ではまだ不十分なところがあるが、本報告書に付すCD-ROM中において、画像データと電子テキストを合わせて収録する試みを行った。
|