本研究で認識対象として用いた文献は東北大学中央図書館に保存しているデルゲ版木版刷チベット文献である。これらの木版刷文献の多くは幅10cm程度で、長さはおよそ35cmから45cmと、A3版より長い文献献(Pecha Paper)である。このような文献をA3版のスキャナに置ける大きさまで縮小した文献上にチベット学研究者に1音節文字ごとにカラーの区切り線を挿入していただいた。この作業は、チベット文献を見ながら表音文字へ変換し、それをキーボードから入力する手間に比較すると、大変容易な作業であることが分かった。そこで、チベット学研究者らが挿入したその区切り線をコンピュータにより自動識別し1音節イメージ文字の生成実験を行い、当初の目標である95%程度の生成率を得ることに成功した。失敗した5%は、ほとんどが上下行からの繋がり文字である。このようにして生成されたオブジェクトイメージ文字の重ね合わせ法による認識実験を行うためには、同じ文字サイズに正規化する必要がある。1音節文字は子音1文字から4文字から構成されており、1文学から4文字までの文字幅情報に認識文字のクラス分けを試みた。1から4のクラスに、はっきりとクラス分けすことは出来なかったが、2、3のクラス分けが可能となった。また、切り出し時からの文字特徴情報をそれぞれ継承して属性として持たせるための文字特徴情報抽出を行った。辞書文字を作成した文字による認識実験(クローズ実験)では90%台の認識率を得ることができた。実用とするためには、オープン実験が重要であり、引き続いてオープン実験を現在、行っている。本研究の特徴は、文献文字の切り出しから認識実験までをオブジェクト指向設計法で一貫して行っている点である。本手法により、チベット学者らにとって、真に有効な木版刷チベット文献の文字認識システムの構築が可能となった。
|