本プロジェクトの最終年度は、昨年度に引き続き、手書きの古ロシア古語文献のPCによる処理を試行した。今年度は、酒井純氏(岡崎女子短期大学経営実務科講師、コンピュータ言語学)を研究協力者として迎え研究を実施した。 ロシア語文献に使用される文字は、チートロを用いた省略語を初め、単語上に省略された文字を山括弧付きで記すもの、文頭を飾る特殊な装飾文字、あるいは草書体に近いものまで、極めて多岐にわたる。結果として、研究室に設置されたPC、スキャナ等では、上述の様な特殊文字の、さらに手書き文字の処理には大きな限界があることが判明した。我が国では古文書のデジタル化が実現しているが、手書きの古ロシア古語文献の処理に関しては、大規模プロジェクトで行う必要がある。 ・マイクロフィッシュ、マイクロフィルムのスキャナによる読み込みについて: 透過原稿ユニット付きのフラットベットスキャナを用いてスキャンを実施、及び専用の枠を作成してスキャニングしたが、枠の厚みによってスキャナのフォーカス(焦点)にずれが出てしまうため、画質の精度に問題が生じた。 ・スキャン画像の画質の調整について: OCRソフトでの認識率を上げるため、解像度、ガンマ値(=いわゆる明るさ)を調整する必要であった。また、画像によっては画像処理ソフトによってシャープネスをあげることでOCRの読み取り精度を上げることが可能であった。 ・読み取ったデータの文字認識(OCR)について: データがマイクロフィッシュ、マイクロフィルムであり、データが粗めのため、OCRでの認識率はあまり良くない。ただし、ロシア語については、ScanReaderを用いたため、他のソフトに比べて格段に認識率を上げることが可能となった。 ・データの保存について: Adobe Acrobatを用いて、pdf形式でデータを保存することにより、読み取った画像データと、OCRの結果である文字データを一括して保存した。また、この形式を用いることにすれば、多くのPDCパソコンで閲覧可能となる。 ・その他 実際のデータはCD-Rに出来るため、保存性もよく、文字データを含むため、検索にも対応する。ただし、簡単な検索の場合は問題ないが、検索の利便性を考えて電子辞書形式や、ほぼすべてのパソコンで閲覧可能であり、そのままインターネット上に掲載することが可能なhtmlまたはxml形式にすることも今後検討する余地があると考えられる。
|