研究概要 |
情報の電算化とネットワーク化が進み,我々は膨大な情報にアクセスできるようになってきた.ところが,逆にあらゆる情報がネットワーク上に氾濫しているため,ユーザにとって真に必要な情報を取り出すための手間がむしろ増大しているという皮肉な現象が深刻な問題となりつつある.本研究は,情報検索を前提とした知識情報処理技術の開発と,そのために必要な理論の展開を目的とする.二年目にあたる今年度は,前年度の研究成果を踏まえ,パタン照合アルゴリズムのさらなる効率化に力点をおいて研究を展開した.まず,理論的観点からのアプローチとして,辞書式データ圧縮法の統一的枠組み(Collage system)を提案し,この枠組みに対する照合アルゴリズムを開発した.このCollage systemは,現在使用されている主要なデータ圧縮法を統一的に表現することが可能である.すなわちこのことは,様々なデータ圧縮法に対する統一的照合アルゴリズムが得られたことを意味している.またこれより,パタン照合の観点から各データ圧縮法を統一的に評価することができた.その結果,圧縮率の低さからデータ圧縮の分野では注目されなかったBinary Pair Encoding(BPE)という圧縮法が,パタン照合の高速化という観点からは非常に優れた圧縮法であることが判明した.上述の知見をもとに我々が開発したBPE圧縮データ上の照合アルゴリズムは,既存の検索ツールとしては最速とされるAgrepよりも高速であるという結果が得られた.一方,学習機能の研究としては,前年度に引き続き,和歌データベースからの特徴抽出に取り組んだ.より柔軟な特徴抽出システム構築のため,文字列のおける類似性指標の統一的枠組みを提案し,既存の多くの指標がこの枠組みで表現できることを示した.また,この枠組みを用いた新しい指標を提案し,計算機実験を行ったところ,これまで知られていなかった類似歌を発見することができた.これらの研究成果を踏まえ,最終年度の次年度で知的全文検索システムの完成を目指す.
|