2017 Fiscal Year Annual Research Report
Identification of hidden concept modules using correlation analysis of heterogenious data
Project/Area Number |
26330342
|
Research Institution | The University of Tokyo |
Principal Investigator |
村上 勝彦 東京大学, 医科学研究所, 特任研究員 (30344055)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | 遺伝子 / データベース / オミックス解析 / バイオマーカー |
Outline of Annual Research Achievements |
遺伝子多形やエピゲノムなどのヒトゲノム関連データ、蛋白質相互作用のデータが膨大に蓄積され、これらの情報の関連を解明する深い解析が待たれている。本研究では、異なるデータベースから情報の相関を解析し、データ説明のための潜在的因子を新たに定義することが目的である。 まずデータの収集においては、遺伝子・タンパク質のIDデータ、および関連する疾患、蛋白質間相互作用、立体構造、蛋白機能ドメイン、細胞内局在等の情報を収集した。自由記述のデータ資源からヒト遺伝子、蛋白質に関するテキスト文情報を取得した。 まず各情報同志で相関検出を行い関連するtermを調べた。これから「DNA修復」と「ヌクレオソーム構造」などの関連する情報を取り出せることがわかった。さらに、大きなカテゴリ間で関連性をみると、たんぱく質の細胞局在情報が他の機能や立体構造などの情報と相関が高いことがわかった。 次に大規模化のための方法を検討し、非負値行列因子分解(NMF)を適用する方法により大規模化が可能となった。同時に複数termで表現される複合概念を自動抽出できることがわかった。例えば「核内でDNA に結合することで転写制御を行う」という複合概念が自動抽出できた。この結果は、高度な抽象概念の自動獲得に成功したということになる。 さらに新規バイオマーカーの候補を得ることを目的に、遺伝子発現や変異等のオミックスデータに本手法を適用した。その結果、BRAF阻害剤感受性と,悪性黒色腫(メラノーマ),BRAF変異,MITF活性度が同じクラスターとして関連が指摘された。Ingenuity Pathway Analysis (IPA)解析を行うと、新規のMITFの活性度がバイオマーカー候補であることの状況証拠を複数得ることが出来、本手法のマルチオミックスデータに対する有効性を確認することができた。
|
Research Products
(9 results)