高速シークエンサーの普及により,個人レベル,さらには細胞レベルでゲノム情報を取得することが可能となった.近年の研究により,同一個体であったとしても臓器・器官・時系列における所在の違いにより,ゲノム配列は非常に多様であることが示唆された.そのため,共通点を多く含みながらも確実に異なるゲノムの“個性”を正確に捉える技術の開発が強く望まれている.ところが,現在主流となっている情報解析の手法では,シークエンサーから出力された断片配列をまずはじめに参照ゲノムに対して貼り付けて,その結果から統計情報を得る方策がとられているため,得られる解析結果は参照ゲノムの特徴に大きく左右されてしまい,ゲノムの多様性を見落としてしまう危険性がある.そこで本研究では,シークエンサーから得られたデータのみからできる限りの情報を抽出し,必要に応じて既知ゲノムを利用するという新しい解析の方向性を模索し,ゲノムの多様性を見落とさない解析技術を開発することをめざす. 今年度は,前年度までに開発を進めてきた手法の改良に加えて,参照ゲノムを用いずにゲノム配列をクラスタリングする基本ソフトウェアの整備を行い,多くのユーザーが広く利用できるよう公開した.また,参照ゲノムを利用しない方法の他に,最近開発が進みつつある参照ゲノム自体をグラフで表現してゲノムの多様な情報を同時に保持する最新技術に関して調査を行った.特に,リファレンスゲノムグラフソフトのvgやgPBWTなどの技術を重点的に調査しその応用方法を検討した.
|