2014 Fiscal Year Research-status Report
Project/Area Number |
26330242
|
Research Institution | Hokkaido University |
Principal Investigator |
瀧川 一学 北海道大学, 情報科学研究科, 准教授 (10374597)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 機械学習 / グラフ / 潜在構造 |
Outline of Annual Research Achievements |
本課題では化学構造式とそれが表現する化合物の生物活性など、多数の構造のデータに基づく統計的モデリングにおいて、対象構造が何らかのグラフ表現で抽象化できる場合の教師付き学習の手法構築と実データの特徴空間の性質の理解を目指している。PubChemやChEBIなど各種アッセイとその化学構造の公的リポジトリなど実際の大規模な構造データにおいては、データの出自や計測環境の異なるデータが混合された多混合母集団となってしまう。こうした構造的「不均質さ」を伴うデータを手法側で取り扱うための手法確立への技術的貢献を目標とする。
本年度は調査および技術課題として次の3点に取り組んだ。(1) 各サンプルがグラフ表現で与えられる場合、可能な部分グラフ特徴の有無やカウントの特徴は現在の様々な手法の基盤となっている。 この部分グラフ指示子を特徴量とする特徴空間は、0/1と離散的である点、次元が非常に高いが疎性も非常に高い点、特徴同士に高い相関がある点など、自然言語処理で扱うBag of Wordsの特徴空間と類似する点を多く持つ。そこで潜在構造を利用する機械学習手法の技術的詳細の検討、及び、標準的なトピックモデル等の実装や効率の詳細についてサーベイとグラフ拡張の実装について技術的検討を行った。(2) 代表者が構築してきた一般のロス関数に対しすべての可能な部分グラフ指示子の中から特徴選択と学習パラメタの推定を同時に行う手法の改良を行った。特に、最適化の各反復での列挙木構築反復のキャッシング、実際のデータに対するパラメタ依存性の解析、ヒューリスティクスの導入による実精度を保持した近似アルゴリズムの開発および数値実験を行い、論文投稿を行った。(3) ベンチマークで用いられてきたいくつかの標準的な実データ(化学構造とその活性値のデータ)について、部分グラフ特徴の共起を調べるアルゴリズム開発を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
当初計画では初年度中にグラフ指示子空間上での潜在構造学習のアルゴリズム構築まで完了している予定であったが、基本探索アルゴリズムの改良に予想以上に手間と時間を要したこと、潜在構造学習分野の進展が早く綿密なサーベイに時間を要したことにより、現時点でアルゴリズム構築中である。また、本年度途中での所属・職務変更のため当初計画の見込みに無かった準備が生じ、当初計画での想定より本課題に割ける時間が取れなかった。
|
Strategy for Future Research Activity |
初年度開発したアルゴリズムと得られた技術課題について、更なる効率改善と検証を行う。この際、部分指示子の空間の特性を具体的に解析できる補助アルゴリズムの開発を引き続き行い、目標とする手法構築の効率や性能の解析に用いる。また予定していたSupervised Latent Dirichlet Allocation (SLDA) (Blei et al, NIPS2007)・Parametric Mixture Models (PMM) (Ueda & Saito, NIPS2003)の2つの学習系をグラフ集合に対する学習法構築を行い、実データの多母集団上での推論構築およびデータ分布の混合度の解析を行う。また、サンプリングベースの手法についても構築の可能性を検討する。
|
Causes of Carryover |
購入予定の備品および書籍について発売日が次年度となったため。
|
Expenditure Plan for Carryover Budget |
発売日の後、当初購入予定の備品および書籍の購入に使用する予定である。
|
Research Products
(5 results)