研究課題/領域番号 |
16K07464
|
研究機関 | 大阪大学 |
研究代表者 |
加藤 和貴 大阪大学, 微生物病研究所, 准教授 (70378868)
|
研究分担者 |
山田 和範 東北大学, 情報科学研究科, 助教 (20756217)
富井 健太郎 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究チーム長 (40357570)
|
研究期間 (年度) |
2016-04-01 – 2020-03-31
|
キーワード | 多重配列アラインメント / 配列解析 / タンパク質 / 塩基配列 / 相同性検索 |
研究実績の概要 |
本研究は多重配列アラインメントプログラムMAFFTの適用範囲の拡大を目的とする。 1. 多数の配列からなるアラインメントを累進法によって構築する際の案内木の影響を検討した結果、正確さにおいて、全ペアのダイナミックプログラミング (DP) を実行することの利点が大きいことがわかった (Yamada et al. 2016)。同様の結果が、別の研究グループからも得られた (Le et al. 2017)。しかし、この方法を数万本の配列からなる巨大なアラインメントにそのまま適用することは、メモリと計算時間の面で難しかった。これらの制約の解消が今年度の課題であった。まず、メモリ使用量を抑制するために、一時データの配置先をメモリからファイルに変更したところ、ディスクアクセスが律速要因になった。そこで、データの読み書きの順番を工夫することによって、メモリ上で行った場合とほぼ同程度の速度が得られた。その結果、計算時間はかかるものの、通常のデスクトップパソコンで巨大アラインメントが計算できるようになった。MPIによる並列計算にも対応したため、大規模な並列計算機では高速に計算できるようになった (Nakamura et al. 2018)。 2. 本研究で提供しているオンラインサービス (https://mafft.cbrc.jp/alignment/server/) が混雑してきたため、計算資源の配分の変更などによって処理能力を向上させた。あわせて Java Applet から JavaScript への切り替えなど、インターフェイスの更新も行った (Katoh et al. 2017)。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
既に実装されていた方法 (G-INS-1) の有用性が判明したため、この方法の計算コストを抑えて巨大アラインメントに適用可能にすることを目標として昨年度末に設定した。この目標はクリアし、それに関する論文発表を行った。並行して、オンラインサービスの改良を行った。
|
今後の研究の推進方策 |
1. 全ペアのDPを行う方法に対して今年度行った変更では、ファイルを利用して一時データを保持したが、アルゴリズム上の工夫により、ファイルもメモリも使用しない方法も可能と考えられる。副作用として並列計算の効率が低下することが予想されるため、実際に動かしてみて得失を検討する。 2. 当初の計画に基づき、異なるスコアリングマトリクスを多重配列アラインメント計算に用いた時の性能を比較する。 3. グループ間アラインメントにおける各配列の重みは、アラインメントの正確さに大きく影響する。例えば、一方のグループが、多数の同一の配列と系統的に孤立した少数の配列からなる場合、重みを考慮しないと、そのグループは同一の配列でほぼ代表されてしまう。この問題を避けるために、アラインメント計算や他の計算において配列の重みを決定するいくつかの異なる方法が使われてきた (Altschul et al. 1989; Gotoh 1995)。これらの方法では、グループ内の系統関係の推定を用いるので、単純には配列の数の二乗に比例する回数のペアワイズな比較が必要である。最近は、全生物のrRNAのアラインメントなどを計算する目的で、配列数100万程度のグループの間のアラインメントが必要になってきている。この場合全ペアの比較は不可能なため、より少ない回数の比較に基づいて重みを決定する方法を検討する。
|
次年度使用額が生じた理由 |
打合せの一部を、別の出張の時に行ったり、メールで済ませたりしたため。
|