• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2016 Fiscal Year Research-status Report

異質データの相関解析による潜在的概念モジュールの同定

Research Project

Project/Area Number 26330342
Research InstitutionTokyo University of Technology

Principal Investigator

村上 勝彦  東京工科大学, 応用生物学部, 准教授 (30344055)

Project Period (FY) 2014-04-01 – 2018-03-31
Keywords遺伝子機能 / 多重検定 / タンパク質間相互作用 / 立体構造 / タンパク質機能ドメイン / 細胞内局在 / GSEA
Outline of Annual Research Achievements

ENCODE計画、ヒトゲノム多型、蛋白質相互作用のデータが膨大に測定され、これらの関連を解明する深い解析が待たれている。本研究では、異なるデータベースから関連しそうな情報の相関を解析し、データ説明のための潜在的因子を新たに定義する。本年度は遺伝子機能を記述するための用語情報の相関検出の方法に焦点を絞り、研究を行った。
データの収集においては、ヒト遺伝情報関連の主要データベース群から、遺伝子・タンパク質のIDデータ、および関連する疾患、蛋白質間相互作用、立体構造、蛋白機能ドメイン、細胞内局在等の情報を収集した。自由記述のデータ資源からヒト遺伝子、蛋白質に関するテキスト文情報を取得した。
用語間の単純な2ターム間の相関を網羅的に計算したところ、大規模なために有用でも弱い相関のある情報が埋もれるなどの問題が顕在化した。そこで、より効率的に解析できる方法を検討した。いくつかの方法を試み、行列因子分解を用いた方法については一定の成果が出た。それについては生命医薬情報学連合大会等で発表しポスター賞を受けた。この方法を発展させて、用語を階層的にクラスタリングすることを試みた。また、パラメーターの最適化を試みた。特に様々なクラスタ数で計算したところ、データの関連性を示す指標に基づいて判断すれば最適なクラスタ数を見つけられることがわかった。
今後は、データの大規模化、自動フィルタリング方法の開発をさらにすすめる予定である。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

データベースであるUniProt、RefSeq、H-InvDB等からヒトに関する疾患、蛋白質間相互作用、立体構造、蛋白機能ドメイン、細胞内局在等の情報を収集した。多くの情報(用語)の相関解析を大量に行っているため、計算および結果の検討に時間がかかっている。データ整備において大量な計算を並行に行うべく、PCクラスターシステムで計算するようにした。その結果、そのシステムの部分で計算が正常終了しない問題が出現した。これは2週間を超えるような長時間の実行でその解決には外部の専門家の助けが必要であった。

Strategy for Future Research Activity

今後は、行列分解における方法で意味のある相関のみを取り出す自動フィルタリング機能、大規模化・高速化の検討が必要である。
自動フィルタリングについては、ランダムに置換を挿入して統計的な基準を用いるものを試す予定である。大規模化・高速化については、高速計算機やGPUなど専用ハードウエアの導入を検討する。
一方でデータの精製をすすめる。数値データについては、これまでの枠組みにそのままのせて望む結果が出るかどうか確認し、場合によっては、数値の範囲によってグループ分けをするなどの前処理が必要である。
それまでに得られた相関ルールと用語の関連性を考慮し、ネットワークの枠組みを用いた「関連情報を与えたときの、ある用語(情報)の確からしさ」の推定方法を検討する。

Causes of Carryover

次世代シーケンサーのデータ解析について、並列処理システムを用いているが、2週間を超える長時間実行にたびたびエラーとなり、この原因究明と再実行に時間を要した。外部専門家の助けを借りてようやく解決できた事例であった。このため、より大規模化するための計算費用の利用は今年度は行わないことにした。

Expenditure Plan for Carryover Budget

大規模な計算をするために計算機環境を増強する。また、ISMB(チェコ)やINCOB(中国)など国際会議での発表を行う。また、論文投稿にも使用する。

  • Research Products

    (5 results)

All 2016 Other

All Presentation (4 results) (of which Int'l Joint Research: 1 results) Remarks (1 results)

  • [Presentation] PubMed Central論文引用ネットワークの解析2016

    • Author(s)
      村上勝彦
    • Organizer
      第38回日本分子生物学会年会
    • Place of Presentation
      横浜国際平和会議場(神奈川県横浜市西区)
    • Year and Date
      2016-11-30 – 2016-12-01
  • [Presentation] A tool and analyses of citation network2016

    • Author(s)
      村上勝彦
    • Organizer
      生命医薬情報学連合大会2016
    • Place of Presentation
      東京国際交流館プラザ平成(東京都江東区)
    • Year and Date
      2016-09-29 – 2016-10-01
  • [Presentation] Clustering of gene ontology annotation by matrix factorization2016

    • Author(s)
      村上勝彦
    • Organizer
      Intelligent Systems for Molecular Biology
    • Place of Presentation
      Orlando, Florida (USA)
    • Year and Date
      2016-07-08 – 2016-07-12
    • Int'l Joint Research
  • [Presentation] 遺伝子オントロジーの階層的クラスタリング2016

    • Author(s)
      村上勝彦
    • Organizer
      2016年度 人工知能学会全国大会
    • Place of Presentation
      北九州国際会議場(福岡県北九州市小倉北区浅野)
    • Year and Date
      2016-06-06 – 2016-06-09
  • [Remarks] 人工知能を用いて遺伝子とその機能の相互関係を見つける手法を開発

    • URL

      http://www.teu.ac.jp/press/2016.html?id=250

URL: 

Published: 2018-01-16  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi