2012 Fiscal Year Annual Research Report
インターメア機能配列の情報量規準と機械学習による同定および進化的解析
Publicly Offered Research
Project Area | Functions of non-coding DNA region for genome integrity |
Project/Area Number |
24114501
|
Research Institution | Hokkaido University |
Principal Investigator |
遠藤 俊徳 北海道大学, 情報科学研究科, 教授 (00323692)
|
Project Period (FY) |
2012-04-01 – 2014-03-31
|
Keywords | 機能的配列モチーフ抽出 / 分子進化 / 機械学習 |
Outline of Annual Research Achievements |
多数の生物ゲノムが解読され、個体(個人)間の違いも明らかにされつつある中、ゲノムに含まれる情報の制御方法についてはわからない点が多く、染色体末端領域、動原体近傍領域、遺伝子間領域を含む、「いわゆる」非遺伝子領域の「インターメア」においては、 正常な生命活動の鍵を握る、ゲノム上の未発見の構造的・機能的な塩基配列が多く含まれることが、本新領域学術分野の中でも明らかにされつつある。 そこで、インターメアにおける種間配列比較解析を行い、構造・機能的に重要な配列の確立を行うことを目的に、主要なモデル生物について、ヒト~原索動物のゲノム配列から、機知の機能配列、および機能配列類似の配列であるにも関わらず不活性な配列の情報を集めてカタログ化し、データベース構築を進めた。生物系統間で共通性と差異を同時に明らかにするため、通常は種間配列保存性と一致度のみを検証することが多いが、生物進化においては遺伝子重複が多く見られ、これが遺伝子機能創出に重要な役割を果たすこと、ヒトにおける個体間でもそういった差異が報告されていることに注目し、遺伝子の種類ごとに量的な面にも焦点を当て情報科学的解析方法の開発を進めた。 生物間の進化的系統関係は、分子データを元に既存知識が修正されつつあり、系統分類という形では、公的データベースや国際プロジェクトで公開が進んでいるが、遺伝子進化の変化量や変動率はほとんど明らかにされていない。これらは個々の配列機能の役割解明に不可欠な情報であるが解析方法は確立していないため、小規模のデータを用いて、比較解析の試行を進めた。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
当初の初年度目標として、次の内容を掲げた。1.ヒト~原索動物のゲノム配列から、機知の機能配列、および機能配列類似の配列であるにも関わらず不活性な配列の情報を集めてカタログ化し、データベースを構築する。2.機能配列間の系統間比較解析を行い、機能配列スペクトル(保存性と量)の進化的変化を明らかにする。3.保存配列部分の情報と生物間の系統関係から、進化的関係解明を試みる。4.各ゲノム配列からカタログ化された部分を差し引き、未分類配列のデータベースを構築する。5.これら情報を元に様々な機械学習アルゴリズムの判別適性を検証し、パラメータ決定を試みる。 1について配列収集を行ったが、複数の公的データベースにおいてもアノテーション整備が不完全で、未解決部分が残されているため、情報整備・収集に課題が残っている。2については、系統間比較解析方法の確立に着手した。3,4については着手したものの1、2の作業に依存する部分がある。5については、自己組織化マップ、サポートベクターマシンを使った解析方法についての検討を行ったほか、時系列データを扱うための統計解析手法の配列情報への適用検討を進めた。
|
Strategy for Future Research Activity |
前年度計画の1にある機能配列データベース、2の機能配列スペクトル、3の保存配列部分に基づく系統樹を整備し、4,未知機能配列カタログ、5,機械学習アルゴリズムの適用と検証を上半期中に実施し、研究班内外に順次公開する。加えて、研究班内部において共同研究を行い、疾患に関与する配列についての解析を進める。 加えて、年度中に下記課題を実施する。1.機能配列・不活性類似配列情報の収集をより広い範囲の真核生物に拡大し、系統比較解析・スペクトル解析も並行して行う。2.未分類配列から機能配列のもつ特徴的パターンを抽出するためのアルゴリズム確立を行う。具体的には、特定長の短配列の出現頻度分布、クロマチン構造や遺伝子領域との相対位置等の情報など、機能と関係のある可能性のある様々な情報を統計的に評価することにより、意味づけを行う。3.機械学習による機能領域の自動判別を実装する。4.推定された機能配列間について、配列プロファイルの進化的変化を調べ、信頼性を検証する。
|