2010 Fiscal Year Annual Research Report
生命科学における多様なネットワークデータからの効率的機械学習・予測手法の開発
Project/Area Number |
09F09265
|
Research Institution | Kyoto University |
Principal Investigator |
馬見塚 拓 京都大学, 化学研究所, 教授
|
Co-Investigator(Kenkyū-buntansha) |
NGUYEN H.C. 京都大学, 化学研究所, 外国人特別研究員
|
Keywords | 機械学習 / グラフマイニング / ラベルプロパゲーション / グラフラプラシアン / バイオインフォマティクス / ケモインフォマティクス / 半教師あり学習 / 分類 |
Research Abstract |
近年の生命科学では、半構造化データと呼ばれる、必ずしも表とはならないデータが頻繁に見られる。代表的な例として、遺伝子ネットワークやタンパク質相互作用等のグラフ(ネットワーク)がある。このようなグラフデータからの知識発見技術は、バイオインフォマティクスはもちろん計算機科学(すなわち機械学習、データマイニング)においても、研究は端緒についたばかりであり、発展しているとは言い難い。そこで、本研究では、グラフデータの半教師あり学習に着目する。すなわち、グラフのノードの一部がラベル付けされ、他のノードがラベルづけられていないという設定において、効率的に、ラベル未知のノードのラベルを推定する問題の解決を試みる。この問題設定はラベルプロパゲーションと呼ばれ、遺伝子ネットワークを用いた遺伝子の機能推定等、ビジネス・科学において、多くみられる問題設定である。この問題設定における既存手法は、主に2つに分けられ、グラフラプラシアンと呼ばれるグラフの性質に基づき推定する手法とネットワークから考えられるラベル付けの整合性を保つように学習する手法の2つに分けられる。言わば、前者は教師なし学習手法、後者は教師あり学習手法である。本研究課題のアイデアはこの両者を組み合わせ、さらにマルチプルカーネルラーニングと呼ばれる効率的な学習の枠組みでこの問題を解くことである。実際に、この手法の効率性を理論的に説明するとともに、人工データさらには実際のタンパク質相互作用データを用いて、本手法の有意性を実験的に示した。研究成果は、雑誌論文としてまとめ、現在投稿中である。
|
Research Products
(1 results)