2023 Fiscal Year Research-status Report
タンパク質-遺伝子モチーフ群の自動抽出システムの開発とゲノム機能解析への応用
Project/Area Number |
23K11326
|
Research Institution | Hiroshima National College of Maritime Technology |
Principal Investigator |
加藤 博明 広島商船高等専門学校, その他部局等, 教授 (30303704)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Keywords | 分子構造情報処理 / タンパク質ー遺伝子 / 配列モチーフ / グラフ理論 / データベース |
Outline of Annual Research Achievements |
モチーフと呼ばれるタンパク質構造中に特定の配置で存在する局所構造特徴は、遺伝子配列の中でもよく保存されている部分であると考えられる。従って、タンパク質のモチーフ、あるいは広い意味での共通構造特徴はタンパク質の構造-機能解析だけでなく、遺伝情報解析においても極めて重要な問題の一つである。本研究課題では、多様で大量の構造データを対象に、それぞれ共通の機能を持つタンパク質グループのモチーフ群を自動抽出するためのシステムを提案する。グローバルな配列全体の比較に基づき、データセットの階層的な分類を試みる。これをもとに、機能に密接に関連する局所的な構造特徴であるモチーフ部位に注目した分子構造データマイニング手法の確立と、タンパク質―遺伝子の配列およびその対応する立体構造までを関連づけた新規モチーフ情報の集積と、ゲノムの機能部位解析への応用を目指す。 本年度研究では、配列全体の相同性に基づく分子進化系統樹の生成について検討を行なった。これをもとに、データの特性に応じた複数のデータセットを生成する。クラスタリングの基準は元となるデータセットや、期待するモチーフのサイズや保存性に大きく依存することが考えられる。最初に、局所的なアミノ酸の並び(トリプレットパターン)に注目した類似性評価や、その特徴パターンの抽出について検討した。複数の生物種からなる比較的小さなデータセットを用いて試行実験を行ない、進化系統樹の生成や、トリプレットパターンの組み合わせをもとにしたモチーフ候補の抽出を行なうことができた。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
所属先の実験棟改修工事が重なり、本格的な計算機実験の環境構築の準備が遅れたため、大規模なデータセットを用いた実験が困難であった。そのため、限定された環境ではあったものの、配列全体のアライメントスコアとは別に、局所的な配列パターン(トリプレットパターン)に基づく、配列比較について検討を進め、その組み合わせによるモチーフ候補の抽出など、新たな可能性を見出すことができた。
|
Strategy for Future Research Activity |
最新のUniProtアミノ酸配列データベースから調整した、タンパク質ー遺伝子配列の情報を対応づけた、規模の異なる複数のテストデータセットを構築する。系統樹に基づくクラスタリングの基準は元となるデータセットや、期待するモチーフのサイズや保存性に大きく依存することが考えられるため、ユーザが対話的に参照・選定するための環境を構築し、試行実験を通じてその有用性を検証する。選定したデータセットに対する配列モチーフ抽出では、シンプルで頑健性のある期待値最大化法を利用する予定である。 作成するプログラムは、まずモチーフ情報が既知のアミノ酸配列を含むデータセットを例に、その性能・妥当性を検証する。また、異なる生物種間での特徴的なモチーフの出現パターンについても調査を行ない、それらの出現頻度に応じたスコア算出方法の改訂など、より合理的な表現モデルへの拡張を行なう。これらを通じて得られた知見をもとに、モチーフ候補の抽出と集積を試みる。
|
Causes of Carryover |
所属先の実験棟の改修工事が重なったため、本格的な計算機実験の環境構築ができなかった。これら次年度繰越分について、改修工事および引越作業の完了後、改めてデータ解析サーバなどの購入費用に充当する予定である。
|