2013 Fiscal Year Research-status Report
大規模無順序木データベースのトップK検索アルゴリズムの研究
Project/Area Number |
24650042
|
Research Institution | National Institute of Informatics |
Principal Investigator |
高須 淳宏 国立情報学研究所, コンテンツ科学研究系, 教授 (90216648)
|
Keywords | 木構造データ検索 / 数式検索 |
Research Abstract |
本研究は木構造データを効率的に検索するためのデータ構造とアルゴリズムを開発することを目的としている。また、開発したアルゴリズムを数式検索等の問題に適用しアルゴリズムの評価を行う。木構造データを検索する際に必要になるマッチングは一般に計算コストが高いため、大規模データベースに対する検索を効率良く行うためには、候補データの効率の良い絞り込みと、少数のデータに対する精度の高いマッチングにわけて処理を行うことが必要になる。 数式検索で必要になる数式のマッチングでは、数式に含まれる変数の処理に工夫が必要になる。数式は基本的に木構造データとして表すことができるが、編集距離のような木構造データのマッチングでは、木構造中のラベルは独立に類似度の評価が行われる。一方、変数を含む数式では、同一の変数を独立に扱うことは望ましくない。例えば変数を含む数式 f(x)+g(x)は、変数を含まない数式f(a)+g(a)とはマッチするが、f(a)+g(b)とはマッチしない。 平成25年度は変数を含む木構造データのマッチングのための候補絞り込み処理とマッチングアルゴリズムについて研究を進めた。候補絞り込み処理については、変数を実体化した後にビット列にエンコードし、ハッシュ関数を用いた検索を行う方法を考案した。この手法は数式が実数値関数の場合にのみ適用できるものなので、平成26年度に一般の数式に適用できる手法に拡張することを計画している。また、絞り込み後の正確なマッチングを行うためのアルゴリズムの検討を行った。ここでは、変数を含む木構造データが、一定の編集操作の後に別の木に含まれるかどうかを判定する問題に取り組み、編集操作数が限られる場合に効率良く計算するアルゴリズムを開発した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究では開発する木構造データのtop-K検索アルゴリズムを評価するために、具体的な応用問題として当初より計画していた数式検索に適用するための問題点を検討し、特に変数処理について絞り込み処理、類似度計算アルゴリズムともに手法を考案することができた。
|
Strategy for Future Research Activity |
最終年度では、残された絞り込み処理の一般化と評価用データセットを用いた実用性の評価を行う。
|
Expenditure Plans for the Next FY Research Funding |
学生に数式検索の結果の評価を行わせることを計画していたが、そのためには数式の同一性の判定を行う必要があり、この評価に時間を要したため平成26年度に評価実験を行うこととした。 評価実験用のコンピュータのモニターを購入する。
|
Research Products
(2 results)