Project/Area Number |
09204224
|
Research Category |
Grant-in-Aid for Scientific Research on Priority Areas
|
Allocation Type | Single-year Grants |
Research Institution | Tohoku Institute of Technology |
Principal Investigator |
小島 正美 東北工業大学, 工学部, 助教授 (60085420)
|
Co-Investigator(Kenkyū-buntansha) |
木村 正行 北陸先端科学技術大学院大学, 情報科学研究科, 教授 (50006219)
|
Project Period (FY) |
1997 – 1998
|
Project Status |
Completed (Fiscal Year 1997)
|
Budget Amount *help |
¥1,600,000 (Direct Cost: ¥1,600,000)
Fiscal Year 1997: ¥1,600,000 (Direct Cost: ¥1,600,000)
|
Keywords | 木版刷 / チベット文献 / 文字認識 / オブジェクト指向 / 1音節文字切出し / Pecha Paper / チベット辞書文字 / 認識システム |
Research Abstract |
本研究で認識対象として用いた文献は東北大学中央図書館に保存しているデルゲ版木版刷リベット文献である。これらのチベット文献は1200年近くに亘ってチベット文化の主流を形成したインド仏教文化の形成・伝承を記したもので、まだ膨大な量として今日、我々に残されている。これらの文献をコンピュータにより自動認識することができれば、インド原典、チベット訳文献、漢訳文献の研究者らが本来の文献学に専念できる点において大変意義がある。 これらの木版刷文献の多くは幅10cm程度で、長さはおよそ35cmから45cmと、A3版より長い文献(Pecha Paper)である。このような文献をどのようにしてコンピュータへ取り込み、行切り出し、1音節文字切り出しを行うかが大変厄介な問題である。著者らは0次処理としてA3サイズのスキャナにおくことができる大きさまで縮小コピーをし、そのコピー文献上にチベット学研究者に1音節文字ごとにカラーの区切り線を挿入していただいた。この作業は、チベット文献を見ながら表音文字へ変換し、それをキーボードから入力する手間に比較すると、大変容易な作業であることが分かった。そこで、チベット学研究者らが挿入したその区切り線をコンピュータにより自動識別し1音節イメージ文字の生成実験を行った。その結果、当初の目標である95%程度の生成率を得ることに成功した。失敗した5%は、ほとんどが上下行からの繋がり文字である。このようにして生成されたオブジェクトイメージ文字は1音節文字切り出し時からの文字特徴情報をそれぞれ継承して属性として持たせている。平成10年度はこのように従来のユークリッド距離による認識手法に、個々の文字の特徴情報を加えることにより、さらに高精度なイメージ文字認識を行っていきたい。
|