本研究では認識対象とした文献は、デルゲ版チベット文献である。本文献は木版刷文献の中でも文字同士が大変複雑に繋がっている。そのため今回用いた「水流し法」により孤立している文字の切り出しを行い、繋がっている文字に対しては、繋がり文字の特徴を抽出してその特徴に合わせた文字切り出しを行なうことにより、およそ70%の文字切り出しまでしか実現できなかった。認識精度の向上には、高精度な1文字切り出しが要求されている。木版刷チベット文献の文字切り出しを行なう場合、元の文献は大変重要な文献である場合が多く、書庫に厳重に保存されている場合が多い。そのため予めコピーされた文献を認識実験に使用する場合がほとんどである。この場合、当然のことながらコピーの善し悪しが文字切り出し率に影響してくることになる.原典を損なわないようにいかにコンピュータへデータを取込むかが今後の課題と言える. 認識実験においては、活字チベット文献で、アナログ辞書文字とサンプル(認識対象)文字とのユークリッド距離を算出して第1位候補文字と第2位候補文字との距離が実験で定めた値以上の場合は、第1位候補文字を認識文字とする。第1位候補文字と第2位候補文字以降との距離が実験で定めた値以内に接近している場合は、これらの文字群は総て類似文字であると判定し、候補文字のアナログ辞書同士の差分を取り、新たに差分重み付ユークリッド距離を求め、距離がもっとも近いアナログ辞書文字を候補文字とする我々が開発した「差分重み付ユークリッド距離法」を適用することにより、10、000文字に対して99%の認識率を得ている。本手法は予め類似文字を選定せず、文字自身が類似文字であることを判定してい行なう手法で、本手法を同様に木版刷チベット文献に530クローズデータに適用し96%の認識率を得ている。現在、オープン実験への適用を行なっている。
|