2005 Fiscal Year Annual Research Report
木の編集距離による近似パタン発見と半構造データからの情報抽出
Project/Area Number |
17700138
|
Research Institution | The University of Tokyo |
Principal Investigator |
久保山 哲二 東京大学, 国際・産学共同研究センター, 助手 (80302660)
|
Keywords | 木の編集距離 / 木の近似照合 / q-gram / 木のアラインメント / 半構造データ |
Research Abstract |
XML文書やHTML文書などの半構造データをはじめとする木構造を、比較・統合するための手法は、これまでに数多く提案されている。しかし、今までに提案されてきたこれらの手法は、具体的な適用領域を意識して開発されてきたものがほとんどである。今年度の研究では、木構造本来の性質に由来する普遍的な性質により特徴づけできる部分と、応用分野に特化した部分を切り分け、木構造の数学的性質から導き出される重要な性質に基づいた木構造の比較・統合のための基礎理論を構築した。 木構造を比較する手法として最も一般的な木の編集距離に着目し、さまざまなタイプの編集距離尺度を統一的に記述するための代数的なフレームワークを提案した。この過程で、2つの木を1つに統合するための代数的な必要十分条件を示すことができた。また、これらの理論的なフレームワークを用いて、部分構造の数え上げに基づく新たな木の類似性尺度を提案した。さらにこの類似尺度が、学習器のためのカーネル関数に適用できることを示した。 木の編集距離は比較的計算コストの高い手法であるため、木の編集距離を高速に近似する手法として木のq-gramを開発した。この手法は、q-gramというノード数qのパスからなる木を考え、この部分木がいくつ木構造に含まれているかという情報を元に、木構造間の距離を測る手法である。 また、応用として、同種の情報を含むHTML文書などの半構造データ群から、属性名とコンテンツを抽出し、属性ごとに整列する手法を提案した。本手法は、半構造データの近似マッチング手法を用い、同一テンプレートから人手による編集により作成されたHTMLの文法間違い等を含む文書にも対応した柔軟な手法である。本手法を、大学のシラバスページに適用することにより、十分高い精度で、メタデータの抽出とデータの整列ができることを示した。
|