2012 Fiscal Year Research-status Report
大規模無順序木データベースのトップK検索アルゴリズムの研究
Project/Area Number |
24650042
|
Research Category |
Grant-in-Aid for Challenging Exploratory Research
|
Research Institution | National Institute of Informatics |
Principal Investigator |
高須 淳宏 国立情報学研究所, コンテンツ科学研究系, 教授 (90216648)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 木構造データ検索 / トップK検索 / インデキシング |
Research Abstract |
本研究は木構造データを効率的に検索するためのデータ構造とアルゴリズムを開発することを目的としている。また、開発したアルゴリズムを数式検索等の問題に適用しアルゴリズムの評価を行う。特に矛順序木データを効率良く検索するアルゴリズムを開発することを最終的な目的とする。 本研究では、木の編集距離を木の類似度を測る尺度として用いる。一般に木のマッチングは計算コストの高い処理を要し、特に無順序木の編集距離の計算はNP困難な問題であることがわかっている。そこで、本研究では、大規模な木構造データベースから問い合わせ木に類似する候補木集合を高速に取り出す処理と、フィルタリングと木のペアの距離を実用的な時間で計算する問題にわけて課題に取り組んでいる。 本年度は、まず、解候補となる木の集合をデータベースから効率良く見つけ出す手法について検討した。これまでの研究で、木に含まれるすべての部分木を特徴とする頻度ベクトルのL1距離を計算することで矛順序木の近似距離を求めることができることがわかっていた。しかし、すべての部分木を使用すると特徴ベクトルの次元が非常に大きくなるため、本年度はその次元圧縮法について検討を進めた。 候補木に対して問い合わせ木との距離を計算する問題では、本年度は理論的解析を行った。比較する木のノードの対応づけを行った場合に、その子ノードの対応付けの組合せが非常に多くなる。木編集距離の計算では動的計画法を用いることが多いが、本研究ではさらに2部グラフのマッチングを組み合わせることによって、計算量を減らすことが可能であることを示した。 木マッチングアリゴリズムの数式検索への応用では、その評価コーパスの構築および検索性能の評価会議を開催している研究グループと協力して、数式検索の課題について検討を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究は、大規模木構造データベースから問い合わせ木に類似した候補木を高速に取り出すフィルタリング、問い合わせ木と候補木の距離を計算する木マッチング、および、数式検索等の木構造を用いた検索問題への応用と評価より構成されている。フィルタリングの研究については、すでに取り組んでいた研究を発展することによって研究を進めておりほぼ当初予定通り進んでいる。また、木マッチングの課題についても理論的な解析が進んでおり、概ね予定どおり進んでいる。応用と評価については、数式検索評価コーパス作成を進めている研究グループとの連携を図っており若干の時間を要しているが、今後、連携による研究の効率化をはかる。
|
Strategy for Future Research Activity |
木構造データベースのフィルタリングおよび木マッチングアルゴリズムの研究は、平成24年度と同じように研究協力者とともに研究を進める。一方、応用および評価については、評価コーパスを作成している研究グループとの連携を深めることによって、研究推進のよりいっそうの効率化をはかる。
|
Expenditure Plans for the Next FY Research Funding |
計算機実験には研究室の既存設備を活用するが、研究に必要なソフトウェアと情報管理用のコンピュータを購入することを計画している。また、研究協力者との打合せおよび研究成果の発表に旅費をあてる。 さらに、英語論文の校正や論文の掲載費としてその他経費を計上する。
|
Research Products
(1 results)