ヒト遺伝子(タンパク質)に関するデータには様々なタイプがある。この複数データを統合したとき情報(term)は相互に関連している。本研究では、termの相関を解析しデータの潜在的因子を新たに定義することが目的である。遺伝子機能のtermについて相関検出を行うと、タンパク質の細胞局在情報が他の機能の情報と相関が高いことがわかった。さらに大規模化の方法を検討し、厳密な相関計算をせずに行列因子分解を適用する方法により大規模化が可能であることがわかった。同時に複数termで表現される複合概念を自動抽出できた。さらに遺伝子発現や変異等のオミックスデータに適用し、新規バイオマーカーの候補を得た。
|