付加価値を持つ小徐本のデータベースを作成することが本研究の目的であり、電子テキストの作成、及び電子テキストと画像データのマークアップ作業を進めつつ、電子テキストから必要な情報を効率よく抽出しデータベース化する方法を考察することが本年度の主たる目標であった。 作業は、1 素材となるテキストの電子化作業を進めること;2 電子テキストから効率よく引用書情報を抽出する方法と、データベース化すべき項目及びその配列等について検討を加えること;の二点を中心に進めた。 1については、OCRで電子化したテキストを、TIDファイルのまま正字に変換し、その上で、文字の校正を行うと同時に画像データのマークアップ作業を行うことを中心とした。電子テキストのマークアップ作業は、TIDファイルの校正およびマークアップ情報の修正後TEIファイルに変換してから行うことになっているため、今年度は余り進展しなかった。ただ、電子テキストのマークアップ作業は、TEIファイルがある程度の分量作成できてから、まとめて行う方が効率が良いと考えられるため、今年度作業の終わったTIDファイルを、来年度まとめて処理することにしたい。 2については、上記のように、予定していた電子テキストのマークアップ作業の手順を変更したため、作業目標をデータベース化すべき項目及びその配列等について検討を加えることに絞った。具体的には、『論語』の引用について、『論語』の引用を含む条を抽出したファイルと、各条の出典をまとめたファイルをそれぞれ作成し、最終的に画像データに関連付けて表示する引用書情報の提示形式について検討した。なお、この過程で行った『論語』の引用についての考察は、「『説文解字繋傳』引『論語』考」(『中国学の十字路』研文出版p434〜446印刷中)にまとめた。
|