研究課題/領域番号 |
07458076
|
研究種目 |
一般研究(B)
|
研究機関 | 学術情報センター |
研究代表者 |
高須 淳宏 学術情報センター, 研究開発部, 助教授 (90216648)
|
研究分担者 |
佐藤 真一 学術情報センター, 研究開発部, 助手 (90249938)
相澤 彰子 学術情報センター, 研究開発部, 助教授 (90222447)
|
キーワード | データベースシステム / 文書画像処理 / 近似マッチング |
研究概要 |
本研究は、今後大きな需要が予想される画像を中心とした学術情報データベースの構築法の研究を目的としている。この研究では、画像データベースの構築、管理、利用の各課題についての個別的な研究とこれらの要素技術を統合しシステムにまとめ上げる統合化技術についての研究を進めている。本研究は3年間の研究であり、初年度である今年度は各要素技術の研究を進めた。まず画像データベースの構築に関連して、文書画像からの自動的なデータベース構築に用いられるルールの学習に関して研究を行なった。この研究は、形式文法の学習問題の応用と位置付けられるが、画像データの解析では2次元上に配置された要素の解析が必要であり、2次元的な広がりを持つデータの解析用文法の学習という点に特徴がある。数種類の学術雑誌に対して本研究で考案した手法を適用したところ、非常に少ないトレイニングデータに対しても精度の高い文法を生成できることが判明した。また。レイアウトの変更に対して柔軟に対応できる手法になっていることも確認できた。画像の利用の観点からは、画像処理によって引き起こされる誤りを利用の段階でいかに吸収するかが大きな課題になる。本研究では、学術雑誌の参考文献を例にとり近似マッチングをベースとしたマッチング手法を考案した。基本的な考え方は、参考文献中に表れるデータのなかからランダムに数個の文字を選びだし、この部分文字列を用いた完全マッチングによって検索を行なうというものである。特徴は、OCRの後処理などで用いらるようなルールを必要としないことと、最終的に完全マッチングになるためインデックスを作成することによって効率良く処理できることである。本手法を日本の情報処理に関する代表的的な論文誌に表れる参考文献に適用したところ、最大94%の精度を得ることができた。
|