2022 Fiscal Year Annual Research Report
Establishing genome-wide analysis of RNA guanine quadruplexes conserved among species
Project/Area Number |
18K11526
|
Research Institution | Osaka University |
Principal Investigator |
加藤 有己 大阪大学, 大学院医学系研究科, 准教授 (10511280)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | RNA / G4重鎖 / トランスクリプトーム |
Outline of Annual Research Achievements |
近年の網羅的解析により、細胞内に発現するRNAの大多数がタンパク質をコードしない非コードRNA (ncRNA) であることが明らかとなった。G4重鎖は核酸中のグアニンに富んだ配列に形成される特殊な高次構造であり、ncRNA中に豊富に存在している可能性が近年指摘されている。しかし、生物学的意義や異なる種間での保存性、そのゲノム全体での規模など未解明な部分が多い。本研究では、比較構造情報解析を行うことで、従来見過ごされてきたncRNA中の種間で保存されたG4重鎖領域をゲノムワイドに同定することを目的とする。具体的に、G4重鎖候補領域を深層学習により予測した後、粗視化された構造情報をもとに種間での比較構造解析を行う。
今年度は、前年度までの畳み込みニューラルネットワークとは別の角度からのモデル化を検討し、自然言語処理分野で強力な実績を誇るBERT (Bidirectional Encoder Representations from Transformers) に基づいた識別モデルを設計した。ここで、DNA-BERTモデルを用いて、連続k塩基のDNA配列組成を事前学習し、次世代シークエンサー技術を用いて得られたG4重鎖配列を用いて、パラメータの微調整を行った。テストセットを用いてモデルを評価した結果、先述の畳み込みニューラルネットワークと遜色ない結果であった。本研究で分かったことは、訓練データと異なる性質のデータセットに対して識別能力を上げることは容易ではないが、今後様々な分布のデータセットが得られることが期待されるため、データ駆動アプローチでの予測性能の向上が待たれる。
|