研究課題
近年の網羅的解析により、細胞内に発現するRNAの大多数がタンパク質をコードしない非コードRNA (ncRNA) であることが明らかとなった。G4重鎖は核酸中のグアニンに富んだ配列に形成される特殊な高次構造であり、ncRNA中に豊富に存在している可能性が近年指摘されている。しかしながら、生物学的意義や異なる種間での保存性、そのゲノム全体での規模など未解明な部分が多い。本研究では、計算機による比較構造情報解析を行うことで、従来見過ごされてきたncRNA中の種間で保存されたG4重鎖領域をゲノムワイドに同定することを目的とする。具体的に、G4重鎖候補領域を深層学習により予測した後、それらの情報をもとに種間での比較構造解析を行うことを目指す。昨年度、深層学習モデルに対する訓練データとテストデータの性質の違いから、現在入手可能な公開データセットすべてに通じるG4重鎖予測器の実現が困難であることが分かった。実際、G4重鎖配列データを生成する実験系が異なれば、配列の組成の統計的性質も異なることを確認している。そこで、今年度では、モデルの訓練に使用するデータセットとして、G4重鎖同定に特化したシークエンシングから得られたデータに限定し、訓練データとテストデータを層化サンプリングによって生成した。また、識別モデルの性能評価を、ホールドアウト法から10-fold cross validationに変更し、ベイズ最適化によるハイパーパラメータのチューニングを行った結果、高い精度を挙げることを確認した。
3: やや遅れている
G4重鎖識別モデルを確立しつつあるが、種間での保存性に関する実験および考察を実施していない。また、感染症蔓延状況のため、共同研究者との議論および学会発表がほぼ不可能となった。したがって、本研究課題の進捗状況はやや遅れていると考えており、補助事業期間延長申請を行った次第である。
G4重鎖同定に特化したシークエンシング (rG4-seq) から生成したヒトのデータセットを用いて、提案手法と既存手法との性能評価を網羅的に行う。また、所属研究室の協力を得て、ウェット実験によりマウスのrG4-seqデータを生成する。次に、マウストランスクリプトーム配列データを用いた予測結果と、実際のウェット実験によるrG4同定結果を比較することで、種間の保存性を示す上での提案手法の有効性を実証したいと考えている。
今年度は新型コロナ感染症の影響により、出張が行えず、旅費として計上していた金額が完全に使用できなかったため、次年度使用額が生じた。
すべて 2021 2020 その他
すべて 国際共同研究 (1件) 雑誌論文 (4件) (うち査読あり 4件、 オープンアクセス 1件) 学会発表 (2件) (うち国際学会 1件)
Nature Aging
巻: 1 ページ: 284-294
10.1038/s43587-021-00041-7
RNA
巻: 26 ページ: 454-469
10.1261/rna.072728.119
The Journal of Immunology
巻: 204 ページ: 2156-2168
10.4049/jimmunol.1900929
Bioinformatics
巻: 36 ページ: 2725-2730
10.1093/bioinformatics/btaa059