2010 年度実績報告書

内包に基づくカーネルによる構造データ学習と知識発見

研究課題

研究課題/領域番号	20700135
研究機関	東京大学
研究代表者	土井晃一郎東京大学, 大学院・新領域創成科学研究科, 特任講師 (10345126)
キーワード	機械学習 / 知識発見 / 構造データ / カーネル関数
研究概要	本研究の目的は,遺伝子データ、XMLデータなどの具体的な構造データに適用できるカーネル関数を内包に基づくカーネルの考え方に基づいて設計、実験を行うことにより、この内包に基づくカーネルの考え方、手法の実データに対する有用性を明らかにすることである。本年度は前年度までの申請者による内包カーネル関数に関する研究成果に基づき、RNA配列に対する内包カーネル関数に関して更なる拡張を試みている。更に新たな実データに対する内包カーネル関数の適用を試みている。具体的にはXMLのような木構造やWEBのリンクなどのグラフ構造やRNA配列に対しても違った定式化を行い、アルゴリズムの設計を行っている。この点に関してはまだ研究が不十分な点があり、畳み込みカーネルなどの他のカーネル関数の設計手法とも性能比較を行っているが、定性的な違いをそれほど明確には出せていない。これらの研究を通して部分構造だけではない構造データに対する特徴づけを提示し、構造データに対する新たなカーネル設計方針を提案しようと試みている。また、この研究成果を英語論文にまとめて雑誌に投稿中である。更に、上記の研究と並行して、構造データの学習に対してのアプローチとして、木構造に適した圧縮を施すことにより頻出する木パターン発見の計算の高速化を行えることを示している。この圧縮では内包カーネル関数で重要な役割を果たす構造データを生成する文法を利用していて、内包カーネル関数の設計とも密接に関わる研究である。この研究に関して、雑誌に論文を投稿中である。