2006 Fiscal Year Annual Research Report
木の編集距離による近似パタン発見と半構造データからの情報抽出
Project/Area Number |
17700138
|
Research Institution | The University of Tokyo |
Principal Investigator |
久保山 哲二 東京大学, 国際・産学共同研究センター, 助手 (80302660)
|
Keywords | 木の編集距離 / 木の近似照合 / q-gram / 木のアラインメント / 糖鎖構造 |
Research Abstract |
前年度の研究により、提案した木の編集距離の代数的な定式化のフレームワークを用いて、既存の木の近似照合手法を、さらに広い範囲にわたり調査し、分類と整理を行った。また、カーネル法による木の分類学習に、同じフレームワークを適用することにより、従来の木を対象としたカーネルが、統一的に記述できることを示し、本手法の一般性を示した。また、カーネル法による木構造の分類学習の応用として、糖鎖構造を対象としたカーネルを開発し、高い予測性能が得られることを示した。 まず、問題の定式化については、以下のような成果を得た。 1.木の編集距離を木構造間のある制約を満たす写像とみなすことにより、「木構造間の近似照合」と、「カーネル法による木構造の分類学習手法」を、組合せ問題として統一的に記述できることを示した。具体的には、木の近似照合は、木構造間の写像にコストを与えたときの「コスト最小化問題」として捉え、カーネル法による学習問題は、木構造間の写像の「数え上げ問題」として捉えることにより、従来の様々な手法を、同じフレームワークで統一的に記述することが可能になった。 2.本手法による定式化を通して、従来研究の問題点が明らかになった。例えば、離散構造のカーネル設計のフレームワークとして広く知られている畳み込みカーネルを用いて設計されていると考えられていた柔軟な照合を行うラベル付き木カーネル(Kashima&Koyanagi2002)が、実は畳み込みカーネルではないことを明らかにした上で、それでもなお、カーネルとしての特性を備えていることを理論的に示した。 つぎに、昨年度開発をおこなった木のq-gramの概念を、カーネル法による木の分類学習に適用し、糖鎖構造を対象とした実験により本手法の有効性を示した。糖鎖構造を対象とする問題として、血液由来の糖鎖のデータから白血病の糖鎖を判別する問題と、呼吸器系の器官に関わる糖鎖から、ある遺伝病にかかわる糖鎖を判別する問題を設定した。さらに、白血病由来の糖鎖からのモチーフ抽出については、既存研究があり、その結果とも高い整合性を示した。
|
Research Products
(5 results)