2017 Fiscal Year Annual Research Report
ベイズモデルによる大規模癌ゲノムシークエンスデータの高精度ヘテロ性解析
Project/Area Number |
17J08884
|
Research Institution | The University of Tokyo |
Principal Investigator |
森山 卓也 東京大学, 情報理工学系研究科, 特別研究員(DC1)
|
Project Period (FY) |
2017-04-26 – 2020-03-31
|
Keywords | 体細胞変異検出 / 系統樹構造 |
Outline of Annual Research Achievements |
本研究の一つの大きな目標は, 体細胞変異と癌のヘテロ性(系統樹の木構造)の情報を同時に解析する手法の構築である. ヘテロ性の情報と, 体細胞変異の関係は概ね以下の3つの変数を用い, T)->S)->D)の依存関係をもつ生成モデルの形にまとめられることが予想できた. T)木構造の状態を表す潜在変数, S)体細胞変異変異の状態を表す潜在変数, D)実際のシークエンスデータを表す観測変数. この目的に関して, 今年度の研究実績は2つある. 1つ目は, S)->D) の生成モデル部分を作成した. これは修士課程までに作成したものを基に拡張し, 体細胞変異検出に重要と思われる情報を複数まで考慮に入れることができるように作成した. 拡張した手法に関しては, シミュレーションデータ, 実データを基に性能評価を既に行なっており, 生成モデルの詳細, 実験結果などに関しては現在国際誌にて論文を投稿中である. 2つ目は, T)->S) の生成モデル部分に関する既存研究の調査と生成モデルのプロトタイプを作成した. 通常マルチリージョンシークエンスのデータでは, 同一の細胞が複数箇所にまたがって現れるために, 真の完全な系統樹構造を推定するのは困難だが, おおよその構造に関しては解釈が可能である. そのため, 厳密な系統樹構造の生成モデルの作成ではなく, おおよその系統樹構造に対する生成モデルをたてて, その大まかな系統樹構造を利用できる生成モデルの作成方法を着想した. また, 着想した生成モデルがおおよその系統樹構造を推定できることを, シミュレーションデータを用いて確認を行なった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
既に概要で示した通り, 本研究課題の一つの大きな目標は以下の3つの変数を用い, T)->S)->D)の依存関係をもつ生成モデルを作成することである. T)木構造を表す潜在変数, S)体細胞変異を表す潜在変数, D)実際のデータを表す観測変数. この目的に対して, 今年度に関しては, S)->D)部分の生成モデル, T)->S)部分の生成モデルに関して個々に研究を行なった. S)->D)部分の生成モデルの作成に関しては, 修士課程までに作成したものを基に拡張し, 体細胞変異検出に重要と思われる情報を複数まで考慮に入れることができるように作成した. 複数情報の生成モデル化に関しては, ベイズモデル平均化などの既存手法を適用するだけでは十分な性能が出ない問題があった. そのため, このS)->D)部分の生成モデル化においては, データを分割し, 分割された個々のデータに対して特異な生成モデルを個々に作成することにより, 性能を担保しつつ, 既存の生成モデルを統合することを可能にした. 生成モデルの詳細, 評価などの実験結果に関しては現在国際誌にて論文を投稿中である. T)->S)部分の生成モデルの作成に関しては, 既存手法のサーベイを行い, 生成モデルのプロトタイプを作成した. 多くの既存の系統樹推定の方法においては, 厳密な系統樹を生成モデルに組み入れることにより系統樹の推定を行なっている. しかし, 実際には得られたデータから厳密な系統樹を正しく推定することは困難で, おおよその形がわかる程度である. このことは, 系統樹情報を体細胞変異検出にも利用しようとする際に問題になると考えられた. そこで, 系統樹に関してはおおよその形とシークエンスエラーを部分無限関係モデルにより記述することを着想しプロトタイプを作成した. 以上の理由から, 概ね順調に進展していると考えられる.
|
Strategy for Future Research Activity |
既に概要で示した通り, 本研究課題の一つの大きな目標は以下の3つの変数を用い, T)->S)->D)の依存関係をもつ生成モデルを作成することである. T)木構造の状態を表す潜在変数, S)体細胞変異変異の状態を表す潜在変数, D)実際のシークエンスデータを表す観測変数. T)->S), S)->D) それぞれの部分の生成モデルに関して, T)->S)部分に関してはプロトタイプの作成と簡単なシミュレーションデータによる実験しか行っていない. そこで, 来年度では, 精緻なシミュレーションデータやマルチリージョンシークエンスデータの実データを用いた十分な性能評価を行う. また実データの状態をふまえた上で生成モデルの設計を再度行うことも念頭に入れて研究を進める. さらに, 個々の生成モデルの作成, 評価が完了し次第, T)->S), S)->D)それぞれの生成モデルの統合方法についても順次考案する予定である.
|