2014 Fiscal Year Annual Research Report
大規模無順序木データベースのトップK検索アルゴリズムの研究
Project/Area Number |
24650042
|
Research Institution | National Institute of Informatics |
Principal Investigator |
高須 淳宏 国立情報学研究所, コンテンツ科学研究系, 教授 (90216648)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 木構造データ検索 / トップK検索 / インデキシング |
Outline of Annual Research Achievements |
本研究は木構造データを効率的に検索するためのデータ構造とアルゴリズムを開発することを目的としている。また、開発したアル ゴリズムを数式検索等の問題に適用しアルゴリズムの評価を行う。特に無順序木データを効率良く検索するアルゴリズムを開発することを最終的な目的とする。 本年度は、これまでに研究してきた木構造データのマッチングアルゴリズムを数式検索に応用する場合の課題について検討した。数式検索では、数式に含まれる変数を考慮した木構造データのマッチングが必要になる。つまり、同一の変数が数式中に複数回現れた場合には、それらは同一の定数、変数、関数とマッチする必要がある。このような問題は論理プログラムにおけるユニフィーケションの問題と関連が深いが、本研究では数式の複雑さを表す尺度の一つとして数式中に現れる変数の数に基づいた問題の複雑さについて検討した。変数を含む数式のマッチング問題として、変数を含む文字列の編集距離、順序木の編集距離などいくつかの問題をとりあげ、その計算量を理論的に示した。 木構造データのクラスタリングを効率的に行うためにdensity-baseのクラスタリングアルゴリズムの実装を行った。変数も考慮した木構造データの距離計算は、本年度の理論的研究によって計算量が大きいことが判明したため、ここでは、木に含まれるテキスト等を利用した簡便な類似度に基づいたクラスタリングとした。さらに、異なる情報源から得られたデータを活用して類似度を効率的に学習するための遷移学習法について検討を行った。遷移学習においては、各情報源でのデータの分布の類似度に基づいて、訓練に用いるデータを選択する方法を考案した。
|
Research Products
(3 results)