研究課題/領域番号 |
26540159
|
研究機関 | 国立研究開発法人産業技術総合研究所 |
研究代表者 |
清水 佳奈 国立研究開発法人産業技術総合研究所, 創薬基盤研究部門, 主任研究員 (60367050)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 次世代シークエンスデータ / Alignment free / Structural variation |
研究実績の概要 |
高速シークエンサーの普及により,個人レベル,さらには細胞レベルでゲノム情報を取得することが可能となった.近年の研究により,同一個体であったとしても臓器・器官・時系列における所在の違いにより,ゲノム配列は非常に多様であることが示唆された.そのため,共通点を多く含みながらも確実に異なるゲノムの“個性”を正確に捉える技術の開発が強く望まれている.ところが,現在主流となっている情報解析の手法では,シークエンサーから出力された断片配列をまずはじめに参照ゲノムに対して貼り付けて,その結果から統計情報を得る方策がとられているため,得られる解析結果は参照ゲノムの特徴に大きく左右されてしまい,ゲノムの多様性を見落としてしまう危険性がある. そこで本研究では,シークエンサーから得られたデータのみからできる限りの情報を抽出し,必要に応じて既知ゲノムを利用するという新しい解析の方向性を模索し,ゲノムの多様性を見落とさない解析技術を開発することをめざす. 今年度は,前年度までに開発を進めてきた,参照ゲノムを用いないまま,異なるゲノム由来のデータセット同士を比較する手法に関して,次のような改良を加えることを検討した.二つのデータセット間で出現頻度に大きな差異のある可変長の部分文字列(以下differential k-mer)を発見した後,解析対象とするデータセットの特徴を考慮して適切なdifferential k-merを抽出する改良.また,大規模なデータに対しても実用的な速度で動作するように,並列化の部分に実装上のさらなる改良を加えるなどの工夫をした.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初の計画通り,今年度は昨年度作成したプロトタイプの改良を達成することができたため.
|
今後の研究の推進方策 |
今後は,実装上の工夫をさらに進め,実問題に応用可能なソフトウェアとして完成度を高めていく.また,学会発表などを通じて対外的に作成したソフトウェアを宣伝する活動にも力を注いでいく.
|