2019 Fiscal Year Research-status Report
MAFFT多重アラインメントプログラムの大量配列データへの対応と機能拡張
Project/Area Number |
16K07464
|
Research Institution | Osaka University |
Principal Investigator |
加藤 和貴 大阪大学, 微生物病研究所, 准教授 (70378868)
|
Co-Investigator(Kenkyū-buntansha) |
山田 和範 東北大学, 情報科学研究科, 准教授 (20756217)
富井 健太郎 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究チーム長 (40357570)
|
Project Period (FY) |
2016-04-01 – 2021-03-31
|
Keywords | 多重配列アラインメント / ロングリードシーケンサー / FFT / SARS-CoV-2 / ウイルスゲノム |
Outline of Annual Research Achievements |
従来の計画通り、ロングリードシーケンサのデータへの対応を進めた。現時点では、シーケンサの性能の限界により、挿入欠失エラーレートが高く、特にnanoporeシーケンサの場合置換エラーに強い偏りがある。その点を考慮した多重配列アラインメントを計算するため、LAST-TRAIN (Hamada et al 2017 Bioinformatics) によるパラメータを用いた多重配列アラインメントの計算とその評価を試みた。並行して、LAST-TRAINの作者である Martin C. Frith博士による、部分的にオーバーラップするリードをアセンブルするプログラム lamassemble の開発に協力した。これらの点に関する現時点での成果を、Frith, Mitsuhashi & Katoh (2020 Methods in Molecular Biology) で報告した。 11月以降は、新型コロナウイルスの配列解析の支援に注力した。MAFFTプログラムは、SARS-CoV-2の起源に関する解析のために頻繁に使われた。例えば、コウモリとセンザンコウに感染する近縁なウイルスを同定する解析で使われた (Zhou et al 2020 Nature; Lam et al 2020 Nature; Lu et al 2020 Lancet)。これは、FFTを用いた高速なアラインメント (Katoh et al 2002 NAR) が、比較的長く互いに近縁な塩基配列の多重配列アラインメントに特に向いていたためと思われる。その結果ユーザが増加し、大阪大学で行っている計算サービスの計算資源が逼迫した。そのため、より効率的にこの計算ができるようにプログラムを応急的に改造し、オンラインサービスと配布版のアップデートを行った。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
ウイルスの起源を突き止めるといった直接役立つ応用は当初想定していなかったが、予想外に役立った。 Web of Science において、本計画でこれまでに報告した論文のうち 2報 (Nakamura et al 2018 Bioinformatics および Katoh et al 2019 Briefings in Bioinformatics) がホットペーパー (被引用数上位 0.1%) にランクされた (2020年5月)。この2報に加えてもう1報 (Katoh & Standley 2016 Bioinformatics) が高被引用文献 (上位1%) にランクされた。
|
Strategy for Future Research Activity |
ウイルスゲノムの解析支援のために後回しになっている、大規模なアラインメントのための案内木構築アルゴリズムに関する作業を進める。 Methods in Molecular Biology の多重配列アラインメントに関する巻の編集作業を進める。 計算サーバの混雑対策として、ユーザがなるべく公平に計算資源を利用できるように、同一セッションからの利用回数の制限を加える。
|
Causes of Carryover |
打合せの一部をメールで済ませたため。
|
Research Products
(9 results)