研究課題/領域番号 |
20H00624
|
研究機関 | 早稲田大学 |
研究代表者 |
浜田 道昭 早稲田大学, 理工学術院, 教授 (00596538)
|
研究分担者 |
小野口 真広 早稲田大学, 理工学術院総合研究所(理工学研究所), 次席研究員(研究院講師) (30645297)
福永 津嵩 早稲田大学, 高等研究所, 講師(任期付) (80791433)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | リピート要素 / 散在的リピート / トランスポゾン / アルゴリズム |
研究実績の概要 |
主要な研究成果として,データベースに依存しない散在的リピートのDe novo検出手法であるREPriseの研究開発を行った.REPriseは,既存手法であるRepeatScoutのアライメント技術を改良することで,seed-and-extendとマスクの反復による散在リピートの検出感度を向上させることに成功した.シミュレーション配列とイネゲノムの評価において,REPriseはRepeatScoutよりも高感度であることを示した.さらに,ヒトゲノムT2T-CHM13(テロメアからテロメアまでのゲノム情報)の最新のリピート配列アノテーションと比較することで,新規の散在性リピート要素を発見した. REPriseのアルゴリズムの詳細は以下となる. まず,入力されたゲノム配列から,シード配列とそれに対応する頻度,位置からなるシードテーブルを構築する.ここで,REPriseはシード配列としてゲノム中にc回以上出現するk-mer(d回の置換を許容する)を用いる.2つのk-mer間のハミング距離がd以下であるものをd-similarと定義する.以前のベンチマーク研究に基づき,cの値は10に設定した.次に,シードテーブルで最も頻出するシードに対して拡張アライメントを行い,1つのシードからのアライメント結果は1つのリピートファミリーに対応する.REPriseは,それぞれアフィンギャップスコアを採用している.そして,アライメント結果に基づいてゲノム配列のシード領域をマスクし,マスクされたシードをシードテーブルから削除される.シードテーブルの更新後,最も頻出するシードが選択され,選択されたシードに対して再度エクステンションアライメントが実行される.その後シードテーブルにシードが残らなくなるまで,拡張とマスクのステップを繰り返す.最後に,得られたリピートファミリーをCD-HITによってさらにクラスタリングを行う.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
de novoリピート発見ソフトウェアで既存より優れているものが開発できたため.
|
今後の研究の推進方策 |
引き続き研究計画に従って研究を進めていく.REPriseに関しては論文として出版を行う.
|