• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2018 Fiscal Year Research-status Report

MAFFT多重アラインメントプログラムの大量配列データへの対応と機能拡張

Research Project

Project/Area Number 16K07464
Research InstitutionOsaka University

Principal Investigator

加藤 和貴  大阪大学, 微生物病研究所, 准教授 (70378868)

Co-Investigator(Kenkyū-buntansha) 山田 和範  東北大学, 情報科学研究科, 准教授 (20756217)
富井 健太郎  国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究チーム長 (40357570)
Project Period (FY) 2016-04-01 – 2020-03-31
Keywords多重配列アラインメント / タンパク質 / 塩基配列 / 配列解析 / 立体構造
Outline of Annual Research Achievements

本研究は多重配列アラインメントプログラムMAFFTの適用範囲の拡大を目的とする。
今年度は、主に正確さの改善を図った。タンパク質をコードする遺伝子の進化過程において、多くの場合、立体構造を保持するような中立なアミノ酸置換が蓄積されてきた。比較的機能的制約の弱いタンパク質や分化後長い時間を経たタンパク質ペアの場合、アミノ酸置換の蓄積によって配列上の類似性が低くなってしまった場合も多い。そのような場合でも、立体構造は依然として保存されていて、明確な類似性が見られる場合が多い。立体構造の情報を使って遠い関係にあるタンパク質のアミノ酸配列のアラインメントを正確に行えることがよく知られている (O’Sullivan et al. 2004)。
配列解析に立体構造データを利用するには、いくつかの技術的難点がある。まず、立体構造アラインメントの計算量は配列アラインメントに比べて大きい。また、立体構造データベースの記法があまり統一されていないために、配列上の残基と座標の対応づけを慎重に行う必要がある。これらの点を克服するために、大阪大学John Rozewicki研究員らとの共同研究によって 、DASHというデータベースを構築した。これは、PDBの全エントリから冗長性を除いたものをドメインに分解し、類似性の見られる全ドメインペアの立体構造アラインメントを計算してGoogle Cloud上のサーバに置き、定期的にアップデートするものである。ユーザがローカルな計算機においてMAFFTプログラムにDASHオプションをつけて起動すると、RESTを通してこのデータベースと通信し、立体構造アラインメントの利用可能なペアを取得し、これらを入力配列に加えて多重配列アラインメントを計算する。
以上の拡張をMAFFTプログラムに対して行い、ダウンロード版とオンライン版の両方でこの機能に対応した。

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

タンパク質の立体構造を考慮した多重配列アラインメントは順調に進んだため、予想より早く論文として発表できた (Rozewicki et al 2019)。
本計画の初年度に公表した、相同でない座位のアライメントを抑制する方法 (Katoh & Standley 2016) は、Web of Science において、2018年11月/12月時点で上位1%の高被引用文献にランクされた。

Strategy for Future Research Activity

Nanoporeシークエンサーによるデータに特化した多重配列アラインメントの要望をユーザから多く受けている。Nanoporeシークエンサによるデータは、挿入欠失エラーレートが高く、置換エラーは特定のペアに偏っている。その点を考慮した多重配列ラインメントに対応する予定である。多重配列アラインメントのパラメータは、進化的に関係した多数の配列をうまく処理できるように調整されているが、シークエンサーのエラーによる置換や挿入欠失を扱うにはそのための考慮が必要な可能性がある。
これまでに、ペアワイズアラインメントについては、入力データ自体から最適なパラメータ (置換マトリクスとギャップコスト) を推定する方法が開発されている (Hamada et al 2017)。この方法の著者である産総研 Martin Frith博士らと協力して多重配列アラインメントへの適用を試みる。
予備的な解析として、Nanoporeシークエンサーによる複数の配列の多重アラインメントからコンセンサスを計算し、同じ配列のSangerシークエンサーによる、正確と思われる配列と比較した。普通のパラメータを用いた場合に比べて、配列の数が少ない場合に性能の向上が見られたが、配列の数が多い場合は顕著な違いは見られていない。単純配列の繰り返しや塩基組成が偏っている場合など、より複雑な状況の解析を進める。

Causes of Carryover

打合せの一部を、別の出張の時に行ったり、メールで済ませたりしたため。

  • Research Products

    (3 results)

All 2019 Other

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Open Access: 1 results) Remarks (2 results)

  • [Journal Article] MAFFT-DASH: integrated protein sequence and structural alignment2019

    • Author(s)
      Rozewicki John、Li Songling、Amada Karlou Mar、Standley Daron M、Katoh Kazutaka
    • Journal Title

      Nucleic Acids Research

      Volume: 47 Pages: W5~W10

    • DOI

      10.1093/nar/gkz342

    • Peer Reviewed / Open Access
  • [Remarks] https://mafft.cbrc.jp/alignment/server/

    • URL

      MAFFT multiple sequence alignment program

  • [Remarks] https://sysimm.org/dash/

    • URL

      DASH database

URL: 

Published: 2019-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi