1998 年度実績報告書

オブジェクト指向設計による木版刷チベット文献のイメージ文字自動認識に関する研究

研究課題

研究課題/領域番号	10111220
研究機関	東北工業大学
研究代表者	小島正美東北工業大学, 工学部, 助教授 (60085420)
研究分担者	木村正行北陸先端科学技術大学院大学, 副学長 (50006219)
キーワード	木版刷 / チベット文献 / 1音節文字切出し / イメージ文字 / 文字認識システム / オブジェクト指向 / 仏典 / OCR
研究概要	本研究で認識対象として用いた文献は東北大学中央図書館に保存しているデルゲ版木版刷チベット文献である。これらの木版刷文献の多くは幅10cm程度で、長さはおよそ35cmから45cmと、A3版より長い文献献(Pecha Paper)である。このような文献をA3版のスキャナに置ける大きさまで縮小した文献上にチベット学研究者に1音節文字ごとにカラーの区切り線を挿入していただいた。この作業は、チベット文献を見ながら表音文字へ変換し、それをキーボードから入力する手間に比較すると、大変容易な作業であることが分かった。そこで、チベット学研究者らが挿入したその区切り線をコンピュータにより自動識別し1音節イメージ文字の生成実験を行い、当初の目標である95%程度の生成率を得ることに成功した。失敗した5%は、ほとんどが上下行からの繋がり文字である。このようにして生成されたオブジェクトイメージ文字の重ね合わせ法による認識実験を行うためには、同じ文字サイズに正規化する必要がある。1音節文字は子音1文字から4文字から構成されており、1文学から4文字までの文字幅情報に認識文字のクラス分けを試みた。1から4のクラスに、はっきりとクラス分けすことは出来なかったが、2、3のクラス分けが可能となった。また、切り出し時からの文字特徴情報をそれぞれ継承して属性として持たせるための文字特徴情報抽出を行った。辞書文字を作成した文字による認識実験(クローズ実験)では90%台の認識率を得ることができた。実用とするためには、オープン実験が重要であり、引き続いてオープン実験を現在、行っている。本研究の特徴は、文献文字の切り出しから認識実験までをオブジェクト指向設計法で一貫して行っている点である。本手法により、チベット学者らにとって、真に有効な木版刷チベット文献の文字認識システムの構築が可能となった。

研究成果

(3件)

すべてその他

すべて文献書誌 (3件)

[文献書誌] Masami Kojima et al.: "Automatic Recognition of Tibetan Buddhist Text by Computer" 1999 EBTI,ECAI,SEER&PNC Joint Meeting. 予定 (1999)
[文献書誌] 小島正美他: "コンピュータによるチベット文献の自動認識" 日本西蔵学会々報. 43号. 31-38 (1998)
[文献書誌] Masami Kojima et al.: "Automatic Tibetan Script Recognition by Computer" 7th Seminar of the International Association for Tibetan Studies. Volume1. 527-533 (1997)