2019 Fiscal Year Annual Research Report
Algorithms that organisms search genes de novo
Project/Area Number |
18H03335
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
矢田 哲士 九州工業大学, 大学院情報工学研究院, 教授 (10322728)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | 遺伝子のde novo誕生 / 生物の遺伝子探索アルゴリズム / バイオインフォマティクス解析 |
Outline of Annual Research Achievements |
まず、出芽酵母(S. cerevisiae)とその近縁種のゲノムデータを比較解析し、遺伝子のde novo誕生の過程(ゲノム中の遺伝子間領域に突然変異が蓄積することでタンパク質のコード領域が生みだされる過程)を塩基配列の解像度で明らかにした。また、遺伝子のde novo誕生の速度が遺伝子のエキソン-イントロン構造によって高められているのではないかと考え、予備的ではあるが、遺伝的アルゴリズム(genetic algorithm: GA)に基づく計算機シミュレーションによってそのことを示した。
遺伝子の構造には、イントロンレス構造とエキソン-イントロン構造があり、前者は後者の特別な場合(0個のイントロンをもつエキソン-イントロン構造)と見ることができる。このことは、イントロンが存在することで、ゲノム配列にコードできる候補遺伝子の数が増し、遺伝子を生みだしやすくなっていることを示唆している。実際、ランダムに取りだされたヒトゲノム配列には、イントロンレス構造の候補遺伝子の1,000倍を越える数のエキソン-イントロン構造の候補遺伝子が存在した。また、これらの塩基長の平均は、イントロンレス構造の候補遺伝子の3倍を越えていた。このことは、エキソン-イントロン構造が長いアミノ酸配列を生みだしやすいことを示唆している。
GAによる計算機シミュレーションでは、染色体にエキソン-イントロン構造の遺伝子をコードすることができる個体から成る集団は、イントロンレス構造の遺伝子しかコードできない個体から成る集団より良い解に到達できることを示した。ここで、染色体長は全ての個体で同じで、シミュレーションした世代数や個体数も両集団で同じである。初期世代にはランダムな塩基配列を各個体の染色体に与え、染色体中の候補遺伝子領域の配列がヒトleptin遺伝子のアミノ酸配列に似ている個体ほど高い適応度を与えた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究課題では、S. cerevisiaeとその近縁種のゲノムデータを比較解析することで、遺伝子のde novo誕生の過程を塩基配列の解像度で明らかにした。そこでは、GCに富むゲノム領域に中立な突然変異が蓄積することで、まず、ORF(open reading frame)が伸長し、続いて、翻訳開始のシグナル配列が獲得されていた。また、遺伝子のde novo誕生の速度が遺伝子のエキソン-イントロン構造によって高められているのではないかと考え、予備的ではあるが、GAに基づいた計算機シミュレーションによってそのことを示した。具体的には、染色体にエキソン-イントロン構造の遺伝子をコードすることができる個体から成る集団は、イントロンレス構造の遺伝子しかコードできない個体から成る集団より良い解に到達できることを示した。以上のように、本研究課題は、おおむね順調に進展している。
|
Strategy for Future Research Activity |
これまでに、S. cerevisiaeとその近縁種のゲノムデータを比較解析することで、遺伝子のde novo誕生の過程を塩基配列の解像度で明らかにした。また、遺伝子のde novo誕生の速度が遺伝子のエキソン-イントロン構造によって高められているのではないかと考え、予備的ではあるが、GAに基づく計算機シミュレーションによってそのことを示した。今年度は、まず、前者の研究成果を論文にまとめ、発表する。また、後者の計算機シミュレーションをさらに進める。
この計算機シミュレーションから得られるデータに加え、今年度から、遺伝子のエキソン-イントロン構造が遺伝子のde novo誕生の速度を高めていることを示す実データの収集を試みる。そこで、まず、de novoに誕生したと考えられる遺伝子をゲノムから発見するコンピュータアルゴリズムを開発する。このアルゴリズムの開発には、2つの困難が伴う。まず、de novo遺伝子は種特異的であることが多く、その発見には配列の類似性を用いることができない。そこで、遺伝子の配列に観察される統計的な特徴を用いることになるが(ab initio遺伝子発見)、de novo遺伝子の配列は短いことが多いので、複雑な統計量を用いることができない。そこで、ここでは、統計量のサンプリング法や機械学習法を網羅的に考察することで、単純な統計量を用いながら、高い信頼性を備えたde novo遺伝子の発見アルゴリズムを開発する。このアルゴリズムをさまざまな生物種に適用することで、さまざまな生物種におけるde novo遺伝子のカタログを作ることができる。もし、エキソン-イントロン構造が遺伝子のde novo誕生の速度を高めているなら、イントロンに富む遺伝子をもつ種は、イントロンが乏しい遺伝子をもつ種に比べ、数多くのde novo遺伝子を生みだしているはずである。
|