研究課題/領域番号 |
26330342
|
研究機関 | 東京工科大学 |
研究代表者 |
村上 勝彦 東京工科大学, 応用生物学部, 准教授 (30344055)
|
研究期間 (年度) |
2014-04-01 – 2018-03-31
|
キーワード | 遺伝子機能 / 多重検定 / タンパク質間相互作用 / 立体構造 / タンパク質機能ドメイン / 細胞内局在 / GSEA |
研究実績の概要 |
ENCODE計画、ヒトゲノム多型、蛋白質相互作用のデータが膨大に測定され、これらの関連を解明する深い解析が待たれている。本研究では、異なるデータベースから関連しそうな情報の相関を解析し、データ説明のための潜在的因子を新たに定義する。本年度は遺伝子機能を記述するための用語情報の相関検出の方法に焦点を絞り、研究を行った。 データの収集においては、ヒト遺伝情報関連の主要データベース群から、遺伝子・タンパク質のIDデータ、および関連する疾患、蛋白質間相互作用、立体構造、蛋白機能ドメイン、細胞内局在等の情報を収集した。自由記述のデータ資源からヒト遺伝子、蛋白質に関するテキスト文情報を取得した。 用語間の単純な2ターム間の相関を網羅的に計算したところ、大規模なために有用でも弱い相関のある情報が埋もれるなどの問題が顕在化した。そこで、より効率的に解析できる方法を検討した。いくつかの方法を試み、行列因子分解を用いた方法については一定の成果が出た。それについては生命医薬情報学連合大会等で発表しポスター賞を受けた。この方法を発展させて、用語を階層的にクラスタリングすることを試みた。また、パラメーターの最適化を試みた。特に様々なクラスタ数で計算したところ、データの関連性を示す指標に基づいて判断すれば最適なクラスタ数を見つけられることがわかった。 今後は、データの大規模化、自動フィルタリング方法の開発をさらにすすめる予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
データベースであるUniProt、RefSeq、H-InvDB等からヒトに関する疾患、蛋白質間相互作用、立体構造、蛋白機能ドメイン、細胞内局在等の情報を収集した。多くの情報(用語)の相関解析を大量に行っているため、計算および結果の検討に時間がかかっている。データ整備において大量な計算を並行に行うべく、PCクラスターシステムで計算するようにした。その結果、そのシステムの部分で計算が正常終了しない問題が出現した。これは2週間を超えるような長時間の実行でその解決には外部の専門家の助けが必要であった。
|
今後の研究の推進方策 |
今後は、行列分解における方法で意味のある相関のみを取り出す自動フィルタリング機能、大規模化・高速化の検討が必要である。 自動フィルタリングについては、ランダムに置換を挿入して統計的な基準を用いるものを試す予定である。大規模化・高速化については、高速計算機やGPUなど専用ハードウエアの導入を検討する。 一方でデータの精製をすすめる。数値データについては、これまでの枠組みにそのままのせて望む結果が出るかどうか確認し、場合によっては、数値の範囲によってグループ分けをするなどの前処理が必要である。 それまでに得られた相関ルールと用語の関連性を考慮し、ネットワークの枠組みを用いた「関連情報を与えたときの、ある用語(情報)の確からしさ」の推定方法を検討する。
|
次年度使用額が生じた理由 |
次世代シーケンサーのデータ解析について、並列処理システムを用いているが、2週間を超える長時間実行にたびたびエラーとなり、この原因究明と再実行に時間を要した。外部専門家の助けを借りてようやく解決できた事例であった。このため、より大規模化するための計算費用の利用は今年度は行わないことにした。
|
次年度使用額の使用計画 |
大規模な計算をするために計算機環境を増強する。また、ISMB(チェコ)やINCOB(中国)など国際会議での発表を行う。また、論文投稿にも使用する。
|