公募研究
KEGGなどのデータベースを使った方法によって,代謝,代謝酵素,リン酸化タンパク質を各オミクスデータによってつなぐ方法では一定の成果を収めることができた.一方,データベースによってつなぐ方法では,当然データベースが手薄なところに関してはうまくいかず,データ駆動型の推論などを用いることが必要になる.今年度は,オミクスデータに対してスパースな偏相関行列を求めることで,代謝,代謝酵素,リン酸化タンパク質のネットワークを推定することを試みた.オミクスデータは,Fao細胞に複数のインスリン濃度の刺激を与えて得られている.試験的に生物学的に意味のあるネットワークをいくつか切り出して,オミクスデータからスパースな偏相関行列を推定したところ,半分ぐらいのネットワークについては既存の生物学的知見と合致する結果が得られた.しかし,オミクスデータはサンプリングコストが低くないため標本サイズは小さく,観測ノイズは小さくないため,ネットワークの推定には厳しい条件になりがちである.一方で,データベースなどには生物学的な知見が蓄積されており,知見があるところは使う方がよい結果が得られる可能性もある.よって,スパースな偏相関行列を推定において生物学的知見を取り込む方法を開発し,試験的に適用した.結果として,データベースの知見がないときよりも,推定結果は改善した.また,数値実験から,データベースにある程度誤りがあっても,開発した方法によって推定結果の改善が見込めることがわかった.
2: おおむね順調に進展している
試験的な部分ネットワークへの適用ではあるが,実データからネットワークを推定し,生物学的知見とある程度合致する結果が得られている.しかし,越えるべき課題がまだ多いのも実状である.まず,推定するネットワークサイズが大きくなった場合,データ量が十分でないことから推定がうまくいかないことが予想される.また,データ自体に欠損が多く,現在はadhocな前処理を行っているが,将来的には論理的な構成に根ざした方法を行う必要が高くなる.アロステリック効果などまだモデルに取り込めていない要素もある.
オミクスデータを全て使い,代謝,代謝酵素,リン酸化タンパク質のネットワーク全体を推定することを試みる.スパースな偏相関行列を求める方法では,陽にデータの時間構造を取り込めていなかったが,状態空間モデルとスパース性などを用いることにより,時間構造を考慮したネットワークの推定方法の開発も検討する.生命現象は複数の時間スケールで進行していくことが多い.時間スケールが比較的近い場合のデータには,時間構造のあるモデルを使い,シグナル伝達から遺伝子発現,表現形までなど異なる時間スケールにまたがる現象には,時間構造が陽に入っていないモデルを使うのがよいと考えている.
すべて 2014
すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件) 学会発表 (3件)
Cell Reports
巻: 8 ページ: 1171-1183
10.1016/j.celrep.2014.07.021