2011 Fiscal Year Annual Research Report
生命科学における多様なネットワークデータからの効率的機械学習・予測手法の開発
Project/Area Number |
09F09265
|
Research Institution | Kyoto University |
Principal Investigator |
馬見塚 拓 京都大学, 化学研究所, 教授
|
Co-Investigator(Kenkyū-buntansha) |
NGUYEN H.C. 京都大学, 化学研究所, 外国人特別研究員
|
Keywords | 機械学習 / 半構造化データ / 遺伝子ネットワーク / ラベルプロパゲーション / リンク予測 / データマイニング / タンパク質相互作用 / グラフ |
Research Abstract |
生命科学では、近年の実権技術の進歩により多種多様のデータが得られている。特に遺伝子ネットワーク等グラフデータは、機械学習技術による解析手法が最も必要とされている。本研究では、生命科学データを念頭においたネットワーク・グラフデータの機械学習解析手法の構築を行った。特に、以下の2つの問題設定を対象とした。1)ネットワークのノードの一部がラベル付けされており、ラベル無しノードのラベルを推定する「ラベルプロパゲーション」に対して効率的な手法を構築した。この問題は、生命科学では、例えば、配列等遺伝子の基本情報により構築できる遺伝子ネットワーク上で、一部の遺伝子の機能が解明されており、機能未知遺伝子の機能を推定することに相当する。2)ネットワークが与えられた時に、ネットワークの未知エッジ(リンク)を予測する「リンク予測」。特に、ネットワークの背景に何らかの(クラスタリングができるような)潜在構造が存在していることを利用する問題設定である。1)の問題設定では、グラフの性質を利用する手法とラベルの推定誤差を最小にするような目的関数を最適化する手法を組み合わせた手法を構築し、手法の高い精度を人工データと実際の生命科学ネットワークデータにより確かめた。2)の問題設定では、ノード間の類似性を表現するカーネルを利用し、潜在構造を効率的に学習可能な枠組みを構築し、計算機実験により有効性を確かめた。いずれも機械学習およびバイオインフォマティクスでの画期的な成果である。成果をまとめた論文は、1)に関してはIEEE Transactions on Neural Networksに受理された。2)は同様の機械学習の欧米一流誌に投稿しており、改訂版が査読中である。
|
Research Products
(3 results)