研究課題/領域番号 |
17700138
|
研究種目 |
若手研究(B)
|
配分区分 | 補助金 |
研究分野 |
知能情報学
|
研究機関 | 東京大学 |
研究代表者 |
久保山 哲二 東京大学, 国際・産学共同研究センター, 助教 (80302660)
|
研究期間 (年度) |
2005 – 2007
|
研究課題ステータス |
完了 (2007年度)
|
配分額 *注記 |
3,500千円 (直接経費: 3,500千円)
2007年度: 1,000千円 (直接経費: 1,000千円)
2006年度: 1,300千円 (直接経費: 1,300千円)
2005年度: 1,200千円 (直接経費: 1,200千円)
|
キーワード | 木の編集距離 / カーネル関数 / 畳み込みカーネル / 多項式カーネル / 木の近似照合 / q-gram / 木のアラインメント / 糖鎖構造 / 半構造データ |
研究概要 |
前年度までに、木の編集距離の様々な既存アルゴリズムを対象に、その近似の度合いを代数的に定式化した。これにより、既存の木の編集距離のアルゴリズムを、統一的に記述し俯瞰することができるようになり、その近似の度合いや計算量に応じた自然なクラス階層が存在することもわかった。この成果は、カーネル法に基づく機械学習においても、2つの木構造間の写像の数え上げをベースにした類似度関数を設計することにより、木の編集距離の様々なアルゴリズムをカーネル関数として利用できることがわかった。 本年度は、当初の計画では、木の構造照合に関する理論的な枠組みが出来次第、Webのページの木構造を対象にした情報抽出という応用へ研究を進める予定であったが、理論的により興味深く、かつ一般的な成果が得られたため、理論面の研究を進めた。 具体的には、前年度までの研究成果を踏まえて、木構造のみでなく、文字列をはじめとする他の離散構造を対象とした既存の畳み込みカーネルの性質を調べた。その結果、畳み込みカーネルの厳密な定義ではなく「共通部分構造の重みつき数え上げ」という概念的な理解により設計されたカーネルで、畳み込みカーネルの定義を逸脱したものが散見されることが判明した。そのようなカーネル関数では、半正定値性が保証されず、その妥当性を確認する必要が発生する。このようなカーネル関数に対しても、本研究で、2つの木構造間のカーネル関数の設計として構築したマッピングの数え上げに基づくカーネル関数の設計手法が有効であることを示した。また、多項式カーネルを一般化したPolynomial Summaryカーネルを提案し、既存の様々なフレームワークを包括する手法であることを示した。すなわち、多項式カーネルは、限定された形式の多項式で定義されているが、これを、より一般の多項式について定義し、カーネル関数となる条件を与えた。
|