研究課題/領域番号 |
16K07464
|
研究機関 | 大阪大学 |
研究代表者 |
加藤 和貴 大阪大学, 微生物病研究所, 准教授 (70378868)
|
研究分担者 |
山田 和範 東北大学, 情報科学研究科, 准教授 (20756217)
富井 健太郎 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究チーム長 (40357570)
|
研究期間 (年度) |
2016-04-01 – 2020-03-31
|
キーワード | 多重配列アラインメント / タンパク質 / 塩基配列 / 配列解析 / 立体構造 |
研究実績の概要 |
本研究は多重配列アラインメントプログラムMAFFTの適用範囲の拡大を目的とする。 今年度は、主に正確さの改善を図った。タンパク質をコードする遺伝子の進化過程において、多くの場合、立体構造を保持するような中立なアミノ酸置換が蓄積されてきた。比較的機能的制約の弱いタンパク質や分化後長い時間を経たタンパク質ペアの場合、アミノ酸置換の蓄積によって配列上の類似性が低くなってしまった場合も多い。そのような場合でも、立体構造は依然として保存されていて、明確な類似性が見られる場合が多い。立体構造の情報を使って遠い関係にあるタンパク質のアミノ酸配列のアラインメントを正確に行えることがよく知られている (O’Sullivan et al. 2004)。 配列解析に立体構造データを利用するには、いくつかの技術的難点がある。まず、立体構造アラインメントの計算量は配列アラインメントに比べて大きい。また、立体構造データベースの記法があまり統一されていないために、配列上の残基と座標の対応づけを慎重に行う必要がある。これらの点を克服するために、大阪大学John Rozewicki研究員らとの共同研究によって 、DASHというデータベースを構築した。これは、PDBの全エントリから冗長性を除いたものをドメインに分解し、類似性の見られる全ドメインペアの立体構造アラインメントを計算してGoogle Cloud上のサーバに置き、定期的にアップデートするものである。ユーザがローカルな計算機においてMAFFTプログラムにDASHオプションをつけて起動すると、RESTを通してこのデータベースと通信し、立体構造アラインメントの利用可能なペアを取得し、これらを入力配列に加えて多重配列アラインメントを計算する。 以上の拡張をMAFFTプログラムに対して行い、ダウンロード版とオンライン版の両方でこの機能に対応した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
タンパク質の立体構造を考慮した多重配列アラインメントは順調に進んだため、予想より早く論文として発表できた (Rozewicki et al 2019)。 本計画の初年度に公表した、相同でない座位のアライメントを抑制する方法 (Katoh & Standley 2016) は、Web of Science において、2018年11月/12月時点で上位1%の高被引用文献にランクされた。
|
今後の研究の推進方策 |
Nanoporeシークエンサーによるデータに特化した多重配列アラインメントの要望をユーザから多く受けている。Nanoporeシークエンサによるデータは、挿入欠失エラーレートが高く、置換エラーは特定のペアに偏っている。その点を考慮した多重配列ラインメントに対応する予定である。多重配列アラインメントのパラメータは、進化的に関係した多数の配列をうまく処理できるように調整されているが、シークエンサーのエラーによる置換や挿入欠失を扱うにはそのための考慮が必要な可能性がある。 これまでに、ペアワイズアラインメントについては、入力データ自体から最適なパラメータ (置換マトリクスとギャップコスト) を推定する方法が開発されている (Hamada et al 2017)。この方法の著者である産総研 Martin Frith博士らと協力して多重配列アラインメントへの適用を試みる。 予備的な解析として、Nanoporeシークエンサーによる複数の配列の多重アラインメントからコンセンサスを計算し、同じ配列のSangerシークエンサーによる、正確と思われる配列と比較した。普通のパラメータを用いた場合に比べて、配列の数が少ない場合に性能の向上が見られたが、配列の数が多い場合は顕著な違いは見られていない。単純配列の繰り返しや塩基組成が偏っている場合など、より複雑な状況の解析を進める。
|
次年度使用額が生じた理由 |
打合せの一部を、別の出張の時に行ったり、メールで済ませたりしたため。
|