2003 Fiscal Year Annual Research Report
生体高分子と結合する低分子化合物の効率的な比較、探索、発見アルゴリズムの開発
Project/Area Number |
15014217
|
Research Institution | Kyoto University |
Principal Investigator |
馬見塚 拓 京都大学, 化学研究所, 客員助教授 (00346107)
|
Co-Investigator(Kenkyū-buntansha) |
山口 敦子 京都大学, 化学研究所, 助手 (10346108)
|
Keywords | アルゴリズム / 機械学習 / 生体生命情報学 / プロテオーム |
Research Abstract |
比較・探索手法の開発においては、化合物を分子グラフと呼ぶ特殊なグラフとみなし、任意の2つの分子グラフを入力として、それらの最大共通部分グラフを出力する問題に対する効率的な解法を構築した。一般のグラフに対して、この問題を現実的な計算時間(多項式時間)で解決することは困難であり、分子グラフとしての合理的な制約(例えば、グラフの次数(節点から出ている枝の数)は化合物の各原子での結合数に相当し比較的小さな値に制約を置ける)を置いた場合も同様である。そこで、グラフの複雑性の尺度の一つである木幅(tree-width)に着目した。木幅とは、直感的にグラフの木への近さを示す尺度であり、木であれば1、節点数nのグラフの完全グラフ(全結合グラフ)はn-1となる。ただし、単純に木幅の値に制約を置いても、この問題は効率的に解決できない。我々は、入力グラフの一方に木幅と次数両方の制約を置き、もう一方に弱い制約(グラフの全域木の数が多項式)を置くことにより、効率的な多項式時間アルゴリズムを構築した。この問題設定は、我々の知る限り計算機科学一般において今までの最も広いグラフのクラスを扱っており、計算機科学の観点からも重要な成果である。発見手法の開発においては、相互作用可能な化合物のペアを各事例とする大量データを入力とし学習した規則を使用し、未知の相互作用を高精度に発見する手法を確立した。入力化合物の背景知識を潜在知識として利用した確率モデルのパラメータ学習により、化合物ペアのみならず背景知識に対する規則を獲得することを特徴とする。本手法は、共起データ一般の学習・予測問題への新手法であり、識別問題としての実験的な評価から共起データに対する既存の一般手法の多くをはるかに凌駕することがわかった。この結果は生命情報科学のみならず情報科学一般での本手法の新規性・有効性を示唆しており非常に重要な成果である。
|
Research Products
(6 results)
-
[Publications] Yamaguchi, A, Mamitsuka, H.: "Finding the Maximum Common Subgraph of a Partial k-tree and a Graph with a Polynomially Bounded Number of Spanning Trees"Lecture Notes in Computer Science. 2906. 58-67 (2003)
-
[Publications] Mamitsuka, H., Okuno, Y., Yamaguchi, A.: "Mining Biologically Active Patterns in Metabolic Pathways using Microarray Expression Profiles"ACM SIGKDD Explorations. 5. 113-121 (2003)
-
[Publications] Mamitsuka, H.: "Hierarchical Latent Knowledge Analysis for Co-occurrence Data"Proceedings of the Twentieth International Conference on Machine Learning. 504-511 (2003)
-
[Publications] Mamitsuka, H.: "Selective Sampling with a Hierarchical Latent Variable Model"Lecture Notes in Computer Science. 2810. 352-363 (2003)
-
[Publications] Mamitsuka, H.: "Efficient Unsupervised Mining from Noisy Data Sets : Application to Clustering Co-occurrence Data"Proceedings of the Third SIAM International Conference on Data Mining. 239-243 (2003)
-
[Publications] Mamitsuka, H.: "Efficient Mining from Heterogeneous Data Sets for Predicting Protein-Protein Interactions"Proceedings of the Fourteenth International Workshop on Database and Expert Systems. 32-36 (2003)