遺伝子のde novo誕生とは、ゲノム中の非遺伝子領域に突然変異が蓄積して遺伝子が誕生することを指す。ここでは、タンパク質をコードする遺伝子のde novo誕生を考察した。 (1) S.cerevisiae(以下、S.cer)に至る系統で、遺伝子がde novoに誕生する過程とその過程を支配する原理を明らかにした。ここでは、S.cerのde novo遺伝子とそれらの近縁種での保存性、S.cerと近縁種の系統樹とゲノム配列を用い、まず、各de novo遺伝子が誕生した系統樹の枝を同定し、次に、各枝の親と子の節におけるペアの塩基配列を推定した。そして、各ペアの塩基配列を比べ、遺伝子がde novoに誕生した枝で観察される配列進化の統計的な特徴を調べた。その結果、遺伝子のde novoの誕生の過程(1.はじめにGC-richなゲノム領域ありき、2.そこに中立な突然変異が蓄積し、3.まずORFが伸長し、4.次に翻訳開始のシグナル配列が獲得される)を導くことに成功した。ここで興味深いのは、2.から4.へと進むにつれて、各ステップに寄与する中立な突然変異の数が減っていることである。このことは、遺伝子のde novo誕生の過程が、各ステップを引き起こす中立な突然変異の数の多さによって支配されていることを示している(遺伝子のde novo誕生の中立説)。 (2) De novoに誕生した遺伝子を体系的に探索するために、short ORF(sORF)のコーディング性を推定する機械学習法を開発した。ここでは、ゲノム配列と自然言語に共通の構造が観察されることに注目して、自然言語処理で発展した機械学習技術、アテンションと転移学習をsORFのコーディング性の推定に応用した。その結果、sORFだけでなく、canonical ORFのコーディング性も高い精度で推定できる汎用モデルの開発に成功した。
|