付加価値を持つ小徐本のデータベースを作成することが本研究の目的であり、画像データをより効率的にマークアップするための方法を考察することが本年度の主たる目標であった。 昨年度使用したデータベース作成のためのtoolは全て守岡知彦氏(京都大学人文科学研究所)開発のものであったが、効率化を目指すためには、新たなtoolの開発が不可欠であった。そこで、今年度前半は主として、tool作成のためのプログラム言語であるEmacs Lispを学ぶことと、画像のマークアップを効率化するための簡単なtool作成にあてた。TIDファイルの文字座標のずれを効率的に修正するためのtoolと、既に電子化したテキストをTIDファイルに取り込むためのtoolを作成したが、これらを組み合わせることにより透明PDFファイルを特定のOCRソフトを使わずに作成できるようになるなど、作業の自由度が上がった。なお、これらのtoolは、若干の修正を加えれば、小徐本以外の漢籍の画像データ処理にも利用できるのではないかと考えている。 後半は、主に引用書データベースの作成にあて、『詩経』『論語』の引用の出典調査と、マークアップした電子テキストから引用書データベースを作成するためのtoolの開発を並行して行った。toolは、まだ修正すべき点が残っており、出典調査も未完了であるため、来年度は、先ずこれらの完成を目指したい。 その他、底本各葉の透明PDFファイル作成及びテキストの電子化作業・文字の校正作業などの基本的な作業も、昨年度に引き続き行った。
|