2017 Fiscal Year Annual Research Report
グラフデータの機械学習における特徴表現設計の体系化
Project/Area Number |
17H01783
|
Research Institution | Hokkaido University |
Principal Investigator |
瀧川 一学 北海道大学, 情報科学研究科, 准教授 (10374597)
|
Project Period (FY) |
2017-04-01 – 2021-03-31
|
Keywords | 機械学習 / グラフデータ |
Outline of Annual Research Achievements |
本研究課題では、有機低分子の活性・物性予測タスクを念頭に、代表者が近年注力してきたグラフ表現を持つデータの機械学習において、どのような特徴表現が良いかの特徴設計問題に取り組んでいる。データがグラフとして与えられる場合、最も汎用的な特徴量が部分構造特徴を部分グラフパターンの有無で表現したものであり、ケモインフォマティクスにおいても構造キー、ハッシュフィンガープリント、ECFPなどとして広く活用されている。本年度は、これを踏まえ、次の3点の課題について検討を行った。(1)部分グラフの有無の特徴量(指示子)は数が膨大であるため、事前に列挙しないでパターン探索とともに予測モデルの学習を行う方式が望ましい。この点において従来のように逐次的に一つづつ部分グラフ特徴を探索しブースティングの枠組みで加法的な予測をするのではなく、部分グラフ特徴の組合せを決定木・回帰木の学習として行い、非線形な予測子を構成するアルゴリズムを開発した。このために必要な枝刈り上界なども導出した。(2)部分グラフの有無で0か1かの指示子変数とするのではなく、部分グラフパターンにk個のワイルドカードマッチを許容した特徴量(頂点や辺のラベルがk個整合しない条件下での緩和した部分グラフ同型)の効率的な探索アルゴリズムを導出し、その機械学習への応用について実験的に評価を行った。(3)従来までのアルゴリズムは部分グラフパターンの探索木を厳密に深さ優先で探索するgSpanアルゴリズムの探索に基づいていた。しかし実験的には部分グラフパターンは非常に数が多いため、類似する効果を持つ部分グラフパターンが多数存在し、厳密探索を緩和しても予測精度が下がらないことがわかっている。そこで3種類の確率的探索を導入した場合の効率について検証を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
計画していた検討課題については研究実績の概要で挙げた通り一定の成果が得られた。また、研究会などで成果発表を行った。
|
Strategy for Future Research Activity |
(1)の課題で分かったこととして、部分グラフパターンは非常に数が多く、また互いに強い相関を持ちうるため、加法的に線形予測子として組合せるだけでも十分な予測精度が得られることが多い。一方で、人工的な例ながら非線形な仮説が表現できないと実際に精度が得られない事例も確認できており、仮説の線形 vs 非線形の問題と、パターン表現(組合せ量を考慮するかどうか)自体の自由度の問題との間について、さらに検討を進める計画である。また、組合せ探索を複雑化すると計算量が増えて実用的にならない場合も多いため、(2)(3)の課題を通してパターン表現の緩和と探索や学習のランダマイズについても引き続き検討を行う。
|