2020 Fiscal Year Annual Research Report
Algorithms that organisms search genes de novo
Project/Area Number |
18H03335
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
矢田 哲士 九州工業大学, 大学院情報工学研究院, 教授 (10322728)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | 遺伝子のde novo誕生 / 生物の遺伝子探索アルゴリズム / バイオインフォマティクス解析 |
Outline of Annual Research Achievements |
De novoに誕生した遺伝子(ゲノム中の遺伝子間領域に突然変異が蓄積することで誕生したタンパク質のコード領域)の構造上の大きな特徴は、タンパク質をコードするORF(open reading frame)の塩基配列長が短いことである。そのため、コーディング性を判別するためにORFからサンプルできる統計データの量が限られ、このことが、信頼性の高いde novo誕生遺伝子の発見を困難にしている。そこで、ここでは、ORFのコーディング性の判別に頻繁に用いられているk-merの出現頻度について、不連続なk-merも含めて、比較的小さなkでも高い信頼性でコーディング性を判別することができるものを探索した。また、de novo誕生遺伝子では、遺伝子発見アルゴリズムの信頼性を評価するための十分なアノテーションデータが整備されていないので、ここでは、ヒトの長鎖ノンコーディングRNA(lncRNA)からタンパク質をコードするsORF(short ORF)を発見するコンピュータアルゴリズムを開発することにした。sORFのタンパク質のコーディング性の判別には、サポートベクターマシン(SVM)やロジスティック回帰を用いた。公共のベンチマークデータを用いた10分割交差検証によるこのアルゴリズムの判別精度は、4-merにおいて96%を越えた。
その他の研究実績としては、まず、出芽酵母(S. cerevisiae)とその近縁種のゲノムデータを比較解析し、遺伝子のde novo誕生の過程を塩基配列の解像度で明らかにした。また、遺伝子のde novo誕生の速度が遺伝子のエキソン-イントロン構造によって高められているのではないかと考え、予備的ではあるが、遺伝的アルゴリズム(GA)に基づくコンピュータシミュレーションによってその可能性を示した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究課題では、まず、(1)S. cerevisiaeとその近縁種のゲノムデータを比較解析することで、遺伝子のde novo誕生の過程を塩基配列の解像度で明らかにした。すなわち、GCに富むゲノム領域に中立な突然変異が蓄積することで、まず、ORFが伸長し、続いて、翻訳開始のシグナル配列が獲得されることを明らかにした。また、(2)遺伝子のde novo誕生の速度が遺伝子のエキソン-イントロン構造によって高められているのではないかと考え、予備的ではあるが、GAに基づいたコンピュータシミュレーションによってその可能性を示した。具体的には、エキソン-イントロン構造の遺伝子を染色体にコードすることができる個体から成る集団を用いたGAは、イントロンレス構造の遺伝子しか染色体にコードすることができない個体から成る集団を用いたGAより良い解に到達できることを示した。さらに、こちらも予備的ではあるが、(3)未知のde novo誕生遺伝子を発見するために、ヒトのlncRNAからタンパク質をコードするsORFを発見するコンピュータアルゴリズムを開発した。このアルゴリズムは、従来の遺伝子発見アルゴリズムより低次の統計量しか用いていないにも関わらず、高い信頼性でsORFが発見できることを示した。
以上のように、本研究課題は、おおむね順調に進展している。
|
Strategy for Future Research Activity |
これまでに、(1)S. cerevisiaeとその近縁種のゲノムデータを比較解析することで、遺伝子のde novo誕生の過程を塩基配列の解像度で明らかにした。また、(2)遺伝子のde novo誕生の速度が遺伝子のエキソン-イントロン構造によって高められているのではないかと考え、予備的ではあるが、GAに基づくコンピュータシミュレーションによってその可能性を示した。また、(3)未知のde novo誕生遺伝子を発見するために、ヒトのlncRNAからタンパク質をコードするsORFを発見する信頼性の高いコンピュータアルゴリズムを開発した。
ここでは、まず、(1)の研究成果を論文にまとめ、発表する。また、(2)と(3)について、十分な計算機実験と注意深い考察を積み重ねることで、各々を研究発表できるレベルまで推し進める。さらに、(2)と(3)を一体化した研究を始める。具体的には、まず、(3)のコンピュータアルゴリズムを様々な生物種に適用することで、各々の生物種におけるde novo誕生遺伝子の体系的なカタログを作成する。そして、それらのカタログをバイオインフォマティクス解析することで、(2)の仮説を支持する実データの収集を試みる。すなわち、もしもエキソン-イントロン構造が遺伝子のde novo誕生の速度を高めているなら、イントロンに富む遺伝子をもつ種は、イントロンが乏しい遺伝子をもつ種に比べ、数多くのde novo遺伝子を生みだしているはずである。
|