Extension of MAFFT multiple sequence alignment program mainly for large data
Project/Area Number |
16K07464
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Research Field |
Evolutionary biology
|
Research Institution | Osaka University |
Principal Investigator |
Katoh Kazutaka 大阪大学, 微生物病研究所, 准教授 (70378868)
|
Co-Investigator(Kenkyū-buntansha) |
山田 和範 東北大学, 情報科学研究科, 准教授 (20756217)
富井 健太郎 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究チーム長 (40357570)
|
Project Period (FY) |
2016-04-01 – 2021-03-31
|
Project Status |
Completed (Fiscal Year 2020)
|
Budget Amount *help |
¥4,940,000 (Direct Cost: ¥3,800,000、Indirect Cost: ¥1,140,000)
Fiscal Year 2019: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2018: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2017: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2016: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
|
Keywords | 多重配列アラインメント / 計算プログラム / 配列解析 / タンパク質 / 塩基配列 / ウイルスゲノム / タンパク質立体構造 / 巨大アラインメント / ロングリードシーケンサー / FFT / SARS-CoV-2 / 立体構造 / 相同性検索 |
Outline of Final Research Achievements |
The primary purpose is to enable the MAFF program to align large sequence data that is becoming common and necessary as a result of the progress of sequencing technologies. When starging this project, there was an argument about how to select a guide tree for the progressive alignment method for large data. We carefully considered this issue and concluded that a conventional approach works well although resource consuming. Based on this result, we made technical improvements to scale up an existing option of MAFFT. We also improved the accuracy of relatively small scale alignment of protein sequences by incorporating 3D structural information.
This project aims to provide many researchers with useful computer software to help solving real-world problems. As a massive need to analyze SARS-CoV-2 genomes suddenly arose, MAFFT is heavily used, indirectly contributing to solve real-world problems such as the origin of this virus and functional analysis of interaction between virus and host.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究の目的は配列解析に役立つ計算プログラムを多くの研究者に提供することであり、直接社会に役立つことは意図していないが、新型コロナウイルスの配列解析において大規模な多重配列アラインメントの計算のためにMAFFTプログラムがよく利用された。このように間接的に役立つことは想定通りであったが、利用頻度は想定を超えた。この計算の高速化の鍵となったアルゴリズムは20年近く前に Katoh et al (2002) で提案したものであり、当時の配列解析のためには過剰性能気味であった。このことは、開発当初は無駄に見える多くの方法の中に、後年役に立つものが少数存在するかもしれない可能性を示している。
|
Report
(6 results)
Research Products
(22 results)