研究概要 |
本研究で認識対象とした文献は、デルゲ版チベット文献である.本文献は木版刷文献の中でも特に文字同士が複雑に重なり合っており、現在の文字認識の研究分野においても実用に耐える認識システムを構築することは大変困難な問題の一つである.我々はこれらの文献を文節単位に切り出し、イメージデータとして既に1万文字程度保存してある.これらのイメージデータからチベット文字の特徴である模棒に注目して傾き補正を行った.傾き補正を行った文節イメージデータから1文字切り出しを行い、認識対象となる5,000文字に対して、平成7年度は認識実験を行った.初年度にクローズ実験を行った結果では97%の認識率を得ていたが、平成7年度のオープン実験の結果では、およそ70%程度の認識率しか得られなかった.その原因は、繋がり文字の切り出しの際、文字の繋がり部分が微妙に文字認識に影響してくることが分かった.また、チベット文字の認識の場合、類似文字が大変多く、これらの類似文字間で誤認識していることがこれまでの基礎実験で分かっている.類似文字に対して、その文字の特徴を取り入れたメソッドを取り入れることにより、オブジェクト指向設計によりチベット活字文字でその有効性を確認し、'95年11月号の情報処理学会誌に論文を掲載した.さらに、文字自身が類似文字と判断した場合、その文字の辞書文字同士の差分をとる新しく提案する"差分重み付ユークリッド距離法"により、活字文字で認識実験を行った結果、その有効性が確認できた.現在、新たに我々が開発認識手法を木版刷文献に適応している.木版刷チベット文字個々の特徴をとらえたこれらの手法を適応することにより、実用に耐える認識システムの構築率を目指している.
|