• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2015 Fiscal Year Research-status Report

異質データの相関解析による潜在的概念モジュールの同定

Research Project

Project/Area Number 26330342
Research InstitutionTokyo University of Technology

Principal Investigator

村上 勝彦  東京工科大学, 応用生物学部, 准教授 (30344055)

Project Period (FY) 2014-04-01 – 2017-03-31
Keywords遺伝子機能 / 多重検定 / 蛋白質間相互作用 / 立体構造 / 蛋白機能ドメイン / 細胞内局在 / GSEA
Outline of Annual Research Achievements

ENCODE計画、ヒトゲノム多型、蛋白質相互作用のデータが膨大に測定され、これらの関連を解明する深い解析が待たれている。本研究では、異なるデータベースから関連しそうな情報(用語)の相関を解析し、データ説明のための潜在的因子を新たに定義する。本年度は相関検出の方法に焦点を絞り、研究を行った。
ヒト遺伝情報関連の主要データベース群から、ゲノム配列に基づくデータ、転写物、タンパク質について、また疾患、蛋白質間相互作用、立体構造、蛋白機能ドメイン、細胞内局在等の情報を収集した。自由記述のデータからもヒト遺伝子、蛋白質に関するテキスト文情報を取得した。
用語間の単純な2ターム間の相関を網羅的に計算したところ、大規模なために有用でも弱い相関のある情報が埋もれるなどの問題が顕在化した。そこで、より効率的に解析できる方法を検討した。小規模ケースについてではあるが、いくつかの方法を試みたところ、行列因子分解を用いた方法については一定の成果が出た。それについては生命医薬情報学連合大会等で発表した。生命医薬情報学連合大会ではポスター賞を受けた。今後もその他の方法の適用について、さらに大規模化と自動フィルタリングについて、検討が必要である。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

データベースであるUniProt、RefSeq、H-InvDB等からヒトに関する疾患、蛋白質間相互作用、立体構造、蛋白機能ドメイン、細胞内局在等の情報を収集した。多くの情報(用語)の相関解析を大量に行っているため、計算および結果の検討に時間がかかっている。初期の計画では、データ記述の用語の相関を個別に解析する方法を採用していた。この場合、計算時間が予想以上にかかり、データも大量に生成することが明らかとなった。そこでこの計算と並行し、大量データを解析するのに、時間的にもデータサイズとしても効率的に行う方法を検討した。いくつかの方法を検討した結果、疎行列に対する行列分解を用いる方法で小規模データにおいて興味深い結果が出た。今後はこの方向を中心に検討を進める予定である。
しかしながら、未だ詳細についての計算が終了していないので、現段階では解析方法を決定できない。そこで再解析を自動更新するためのソフト開発外注は後回しにすることにした。

Strategy for Future Research Activity

行列分解における方法について異なるサブタイプを適用し、それらを比較検討する。その上で最適なものを決定し、その大規模化と自動フィルタリングを行う。一方でデータの精製をすすめる。得られた相関データを用いたGSEA解析の開発を開始する。GSEAとは、解析したい遺伝子セットが与えられたとき、多くの遺伝子に関連する用語のリストを定量的なスコアと共に示すものである。これまでに得られた相関ルールと用語の関連性を考慮し、ネットワークの枠組みを用いた「関連情報を与えたときの、ある用語(情報)の確からしさ」の推定方法を検討する。つぎに巨視的相関構造の抽出を実施する。これは、すでに得た微視的構造をもとに相互情報量など複数の係数から巨視的構造を求める。

Causes of Carryover

大量データを解析しているため、予想を超える時間がかかり、計算機リソースが必要となった。また計算を効率的に行うため、特別に方法の検討をすることが必要になった。当初は、外部データのバージョンアップに対して、データ取得と解析の自動再計算をするためのソフト開発外注を予定していたが、現段階(平成27年度)では解析方法を決定できないため、外注を延期することにした。また、予定していた海外の学会については日程が合わず取りやめた。

Expenditure Plan for Carryover Budget

大規模な計算をするために計算機環境を増強する。現在行っている効率的な方法の検討をすすめ、それをもとに自動更新するためのソフト開発外注を行う。また、ISMB(米国)やGIW(中国)など国際会議での発表を行う。また、論文投稿にも使用する。

  • Research Products

    (3 results)

All 2015

All Presentation (3 results) (of which Int'l Joint Research: 1 results)

  • [Presentation] 遺伝子データベースアノテーションのクラスタリング2015

    • Author(s)
      村上勝彦
    • Organizer
      第38回日本分子生物学会年会
    • Place of Presentation
      神戸ポートアイランド(兵庫県神戸市中央区港島中町)
    • Year and Date
      2015-12-01 – 2015-12-04
  • [Presentation] Extraction of latent concepts from an integrated human gene database(2015 7th International Conference of Soft Computing and Pattern Recognition2015

    • Author(s)
      村上勝彦
    • Organizer
      SoCPaR 2015
    • Place of Presentation
      九州大学大橋キャンパス(福岡県福岡市南区塩原)
    • Year and Date
      2015-11-13 – 2015-11-15
    • Int'l Joint Research
  • [Presentation] Identification of latent factors in gene databases using non-negative matrix factorization2015

    • Author(s)
      村上勝彦
    • Organizer
      生命医薬情報学連合大会
    • Place of Presentation
      京都大学宇治おうばくプラザ(京都府宇治市五ケ庄)
    • Year and Date
      2015-10-29 – 2015-10-31

URL: 

Published: 2017-01-06  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi