本研究では、数値ベクトルやネットワークなどの多様な形式の生物情報を統合的に扱うデータマイニングを研究しており、本年度は、以下の手法を開発した。(1)代謝パスウェイやタンパク質相互作用などを表現するネットワーク形式データのクラスタリング解析に取り組んだ。代表的な手法であるスペクトラル法を、実ネットワークの性質を反映する人工ネットワークおよび実在する遺伝子ネットワークによる実験により、計算コストおよび解析精度の観点から評価し、競合する手法より優れることを明らかにした。さらに、ネットワークを遺伝子発現量などの数値ベクトルと統合する手法を提案して、優位性を実験的に確認した。(2)複数のネットワークを局所的に統合する遺伝子機能の予測法を開発した。既存手法は、ネットワーク毎に全てのエッジをを一様に重みづけるために、ラベルの予測に有効なデータとノイズを一様に扱う。そこで、部分ネットワークを教師データを用いて重み付けし、複数のネットワークを統合する手法を提案した。(3)橋本らとの共同研究により、糖鎖の重要な部分構造をマイニングする手法を開発した。本手法をデータベースKEGG GLYCANに登録されるデータセットに適用して、糖タンパク質や糖脂質の有名なコア構造を高速に抽出できた。本成果は、学術論文誌Bioinformaticsに掲載された。(4)茅野らとの共同研究により、疾患研究で重要なSNPおよび遺伝子発現量の2種類のデータを用いて、遺伝子間の交互作用の検出法を開発した。既存手法では計算コストがボトルネットとなり全ての遺伝子とSNPのペアを解析できなかったため、交互作用するペアの候補を絞り込むフィルタリング手法を開発し、交互作用の検定の高速化を実現した。
|