2014 Fiscal Year Annual Research Report
疎性モデリングに基づく部分グラフ指示子の冗長性及び相関構造の分析
Publicly Offered Research
Project Area | Initiative for High-Dimensional Data-Driven Science through Deepening of Sparse Modeling |
Project/Area Number |
26120503
|
Research Institution | Hokkaido University |
Principal Investigator |
瀧川 一学 北海道大学, 情報科学研究科, 准教授 (10374597)
|
Project Period (FY) |
2014-04-01 – 2016-03-31
|
Keywords | 機械学習 / グラフ / 構造データ / 疎性モデリング / 変数選択 |
Outline of Annual Research Achievements |
機械学習において最も重要な点の一つは「どのような特徴を用いるか」という学習対象の最適な変数表現の問題である。化学構造からの生物活性の予測など、各サンプルがグラフ表現で与えられる場合、部分グラフ特徴の有無を特徴とする学習が基盤となるが、可能な部分グラフ特徴は組合せ的に大きな数となり、実質的にどのような特徴を行うかが既存手法の差を規定している。
本課題では、すべての可能な部分グラフ指示子の空間において、疎性モデリングの考えを適用することで問題に応じた特徴集合とモデル母数の同時推定を可能とするアプローチに取り組んでいる。この場合、部分グラフ指示子の特徴空間は、組合せ的な超高次元となり、特殊な高い相関構造と疎性を持つため、この分布特性の理解とそれを反映した新たな手法確立が目標である。本年度は次の3点に取り組んだ。(1) 代表者が構築してきた一般のロス関数に対しすべての可能な部分グラフ指示子の中から疎学習に基づいて特徴選択と学習パラメタの推定を同時に行う手法の改良を行った。特に、最適化の各反復での列挙木構築反復のキャッシング、実際のデータに対するパラメタ依存性の解析、ヒューリスティクスの導入による実精度を保持した近似アルゴリズムの開発および数値実験を行い、論文投稿を行った。(2) Elastic-net型の正則化について実データで検証実験を行った。これは、2-normで相関のある特徴群を各々平均化し、1-normでそれらの群から選択する効果を期待するものであるが、部分グラフ指示子の組合せ的超高次元においては2-normの効果が特に精度改善に繋がらないことを確認した。この仕組みについて引き続き検証中である。(3) 特殊な疎性と高い相関構造を規定している部分グラフ特徴の「共起」を陽に調べるアルゴリズム開発を行った。頻度の高い共起の列挙アルゴリズムを引き続き検証中である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初計画通り、初年度は実データにおけるすべての可能な部分グラフ指示子の特徴空間について一定の理解と手法構築の手がかりが得られた。また、学習アルゴリズムの効率改善やヒューリスティクスの導入についても成果が得られた。
|
Strategy for Future Research Activity |
特徴空間の冗長性と相関構造や実データの線形分離性について、より良い理解を得ることを目指し次の3点を重点的に検証する。(1) 疎性モデリングに基づく手法を列挙木の積グラフ上での探索に拡張することで、二次交互作用付きの一般化線形モデルの学習へ拡張する。これにより、従来モデルではできない特徴の組み合わせ効果や相乗的効果の分析、交互作用項を含めた疎性モデリング変量選択や尤度比検定に基づく交互作用検定を実現する。(2) 部分グラフ指示子のような超高次元空間での1-norm正則化による疎性モデリングと2-norm正則化による相関構造の扱いについてさらに解析し、特徴空間の特性理解へ貢献する。(3) 与えられたグラフデータの部分グラフ特徴に関する特性を理解するための補助的技術の開発を行う。ワイルドカードつきパターンや部分構造特徴の共起の列挙、探索木構造の可視化、部分グラフのクラス(自由木列挙とサイクル部分の分離など)を考慮した探索構造、などについて検討する。
|
Research Products
(5 results)