研究概要 |
本年度の研究実績は以下の通りである。 1.データ形式を超えた検索手法の開発 前年度までに,画像情報など二次元配列データに関して,二次元のビット配列形式を解いて単なるビット配列に変換し,共通のデータフォーマットを有する特徴量に変換する手法を開発したが,最終年度は画像に限らず,テキスト文書を含む一般の非暗号化バイナリーデータに関して,データから形式依存のビット配列情報を捨象し,残された情報を数学的な不変量に縮約して特徴量に変換する手法を確立した。ビット配列情報から規則順序形式を捨象し一般的なビット配列に変換した.更に数学的不変量を抽出し,検索の手がかりとなる特徴ベクトルを構成した.また,最終年度はデータ形式を超えた高速検索を可能にするべく,被検索データのデータ構造と検索アルゴリズムの開発を行った.特徴ベクトルから高速に情報検索することができるように,いずれの特徴ベクトルがいずれのデータから得られたものであるかを紐付けする逆引きファイルを構成した.そして,検索時には実データを見ることなく逆引きファイル情報を参照することで,高速な検索を可能とした。これにより,種々の構造を有するデータ形式に適用可能な高速検索手法を得た. 2.検索システムのプロトタイプ作成による性能評価と手法修正 上記で新たに開発した手法やアルゴリズムをデータサーバ計算機にプログラムとして実装した.性能評価として検索精度及び速度を評価した.その結果,前年度には二次元配列データなどの構造データに関しては数分単位の検索時間が必要とされるたが,最終年度は上記の手法開発により大幅な高速化が図られ,数秒で構造データの検索が可能になった.更に二次元配列構造に限らず,テキストや系列構造,木構造,グラフ構造など,多様な構造データに関して検索性能を検証し,いずれに関しても所与の性質,類似性を持った構造データを高速に検索できることを確認した. 以上により,本研究の当初の目的である既存のデータ形式に留まらず将来新たに生み出されるであろうデータ形式にも対応しうる,データ内容に共通した不変な数学的特徴を抽出する原理,それによって類似性を判定する原理,及びそれらに基づく検索手法が得られた.
|