• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2017 Fiscal Year Research-status Report

MAFFT多重アラインメントプログラムの大量配列データへの対応と機能拡張

Research Project

Project/Area Number 16K07464
Research InstitutionOsaka University

Principal Investigator

加藤 和貴  大阪大学, 微生物病研究所, 准教授 (70378868)

Co-Investigator(Kenkyū-buntansha) 山田 和範  東北大学, 情報科学研究科, 助教 (20756217)
富井 健太郎  国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究チーム長 (40357570)
Project Period (FY) 2016-04-01 – 2020-03-31
Keywords多重配列アラインメント / 配列解析 / タンパク質 / 塩基配列 / 相同性検索
Outline of Annual Research Achievements

本研究は多重配列アラインメントプログラムMAFFTの適用範囲の拡大を目的とする。
1. 多数の配列からなるアラインメントを累進法によって構築する際の案内木の影響を検討した結果、正確さにおいて、全ペアのダイナミックプログラミング (DP) を実行することの利点が大きいことがわかった (Yamada et al. 2016)。同様の結果が、別の研究グループからも得られた (Le et al. 2017)。しかし、この方法を数万本の配列からなる巨大なアラインメントにそのまま適用することは、メモリと計算時間の面で難しかった。これらの制約の解消が今年度の課題であった。まず、メモリ使用量を抑制するために、一時データの配置先をメモリからファイルに変更したところ、ディスクアクセスが律速要因になった。そこで、データの読み書きの順番を工夫することによって、メモリ上で行った場合とほぼ同程度の速度が得られた。その結果、計算時間はかかるものの、通常のデスクトップパソコンで巨大アラインメントが計算できるようになった。MPIによる並列計算にも対応したため、大規模な並列計算機では高速に計算できるようになった (Nakamura et al. 2018)。
2. 本研究で提供しているオンラインサービス (https://mafft.cbrc.jp/alignment/server/) が混雑してきたため、計算資源の配分の変更などによって処理能力を向上させた。あわせて Java Applet から JavaScript への切り替えなど、インターフェイスの更新も行った (Katoh et al. 2017)。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

既に実装されていた方法 (G-INS-1) の有用性が判明したため、この方法の計算コストを抑えて巨大アラインメントに適用可能にすることを目標として昨年度末に設定した。この目標はクリアし、それに関する論文発表を行った。並行して、オンラインサービスの改良を行った。

Strategy for Future Research Activity

1. 全ペアのDPを行う方法に対して今年度行った変更では、ファイルを利用して一時データを保持したが、アルゴリズム上の工夫により、ファイルもメモリも使用しない方法も可能と考えられる。副作用として並列計算の効率が低下することが予想されるため、実際に動かしてみて得失を検討する。
2. 当初の計画に基づき、異なるスコアリングマトリクスを多重配列アラインメント計算に用いた時の性能を比較する。
3. グループ間アラインメントにおける各配列の重みは、アラインメントの正確さに大きく影響する。例えば、一方のグループが、多数の同一の配列と系統的に孤立した少数の配列からなる場合、重みを考慮しないと、そのグループは同一の配列でほぼ代表されてしまう。この問題を避けるために、アラインメント計算や他の計算において配列の重みを決定するいくつかの異なる方法が使われてきた (Altschul et al. 1989; Gotoh 1995)。これらの方法では、グループ内の系統関係の推定を用いるので、単純には配列の数の二乗に比例する回数のペアワイズな比較が必要である。最近は、全生物のrRNAのアラインメントなどを計算する目的で、配列数100万程度のグループの間のアラインメントが必要になってきている。この場合全ペアの比較は不可能なため、より少ない回数の比較に基づいて重みを決定する方法を検討する。

Causes of Carryover

打合せの一部を、別の出張の時に行ったり、メールで済ませたりしたため。

  • Research Products

    (6 results)

All 2018 2017 Other

All Journal Article (3 results) (of which Peer Reviewed: 2 results,  Open Access: 2 results) Presentation (2 results) (of which Invited: 2 results) Remarks (1 results)

  • [Journal Article] Parallelization of MAFFT for large-scale multiple sequence alignments2018

    • Author(s)
      Nakamura Tsukasa、Yamada Kazunori D、Tomii Kentaro、Katoh Kazutaka
    • Journal Title

      Bioinformatics

      Volume: 印刷中 Pages: 印刷中

    • DOI

      10.1093/bioinformatics/bty121

    • Peer Reviewed / Open Access
  • [Journal Article] MAFFT online service: multiple sequence alignment, interactive sequence choice and visualization2017

    • Author(s)
      Katoh Kazutaka、Rozewicki John、Yamada Kazunori D.
    • Journal Title

      Briefings in Bioinformatics

      Volume: 印刷中 Pages: 印刷中

    • DOI

      10.1093/bib/bbx108

    • Peer Reviewed / Open Access
  • [Journal Article] Modeling Biocatalysts2017

    • Author(s)
      Schritt Dimitri、Katoh Kazutaka、Li Songling、Standley Daron M.
    • Journal Title

      Future Directions in Biocatalysis (Second Edition), edited by T. Matsuda

      Volume: - Pages: 385~398

    • DOI

      10.1016/B978-0-444-63743-7.00019-6

  • [Presentation] 多重配列アラインメントの並列計算2018

    • Author(s)
      加藤和貴
    • Organizer
      配列解析シンポジウム ~36 years since Smith-Waterman-Gotoh~
    • Invited
  • [Presentation] アラインメント2017

    • Author(s)
      加藤和貴
    • Organizer
      木村資生記念進化学セミナー
    • Invited
  • [Remarks] MAFFT - a multiple sequence alignment program

    • URL

      http://mafft.cbrc.jp/alignment/server/

URL: 

Published: 2018-12-17  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi