研究課題/領域番号 |
16K07464
|
研究機関 | 大阪大学 |
研究代表者 |
加藤 和貴 大阪大学, 微生物病研究所, 准教授 (70378868)
|
研究分担者 |
山田 和範 東北大学, 情報科学研究科, 准教授 (20756217)
富井 健太郎 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究チーム長 (40357570)
|
研究期間 (年度) |
2016-04-01 – 2021-03-31
|
キーワード | 多重配列アラインメント / ロングリードシーケンサー / FFT / SARS-CoV-2 / ウイルスゲノム |
研究実績の概要 |
従来の計画通り、ロングリードシーケンサのデータへの対応を進めた。現時点では、シーケンサの性能の限界により、挿入欠失エラーレートが高く、特にnanoporeシーケンサの場合置換エラーに強い偏りがある。その点を考慮した多重配列アラインメントを計算するため、LAST-TRAIN (Hamada et al 2017 Bioinformatics) によるパラメータを用いた多重配列アラインメントの計算とその評価を試みた。並行して、LAST-TRAINの作者である Martin C. Frith博士による、部分的にオーバーラップするリードをアセンブルするプログラム lamassemble の開発に協力した。これらの点に関する現時点での成果を、Frith, Mitsuhashi & Katoh (2020 Methods in Molecular Biology) で報告した。 11月以降は、新型コロナウイルスの配列解析の支援に注力した。MAFFTプログラムは、SARS-CoV-2の起源に関する解析のために頻繁に使われた。例えば、コウモリとセンザンコウに感染する近縁なウイルスを同定する解析で使われた (Zhou et al 2020 Nature; Lam et al 2020 Nature; Lu et al 2020 Lancet)。これは、FFTを用いた高速なアラインメント (Katoh et al 2002 NAR) が、比較的長く互いに近縁な塩基配列の多重配列アラインメントに特に向いていたためと思われる。その結果ユーザが増加し、大阪大学で行っている計算サービスの計算資源が逼迫した。そのため、より効率的にこの計算ができるようにプログラムを応急的に改造し、オンラインサービスと配布版のアップデートを行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
ウイルスの起源を突き止めるといった直接役立つ応用は当初想定していなかったが、予想外に役立った。 Web of Science において、本計画でこれまでに報告した論文のうち 2報 (Nakamura et al 2018 Bioinformatics および Katoh et al 2019 Briefings in Bioinformatics) がホットペーパー (被引用数上位 0.1%) にランクされた (2020年5月)。この2報に加えてもう1報 (Katoh & Standley 2016 Bioinformatics) が高被引用文献 (上位1%) にランクされた。
|
今後の研究の推進方策 |
ウイルスゲノムの解析支援のために後回しになっている、大規模なアラインメントのための案内木構築アルゴリズムに関する作業を進める。 Methods in Molecular Biology の多重配列アラインメントに関する巻の編集作業を進める。 計算サーバの混雑対策として、ユーザがなるべく公平に計算資源を利用できるように、同一セッションからの利用回数の制限を加える。
|
次年度使用額が生じた理由 |
打合せの一部をメールで済ませたため。
|