2016 Fiscal Year Annual Research Report
スパースモデリングによる大規模ゲノムコホート解析
Publicly Offered Research
Project Area | Initiative for High-Dimensional Data-Driven Science through Deepening of Sparse Modeling |
Project/Area Number |
16H01528
|
Research Institution | Tohoku University |
Principal Investigator |
田宮 元 東北大学, 東北メディカル・メガバンク機構, 教授 (10317745)
|
Project Period (FY) |
2016-04-01 – 2018-03-31
|
Keywords | ゲノム / 遺伝学 / 統計数学 |
Outline of Annual Research Achievements |
まず全相互作用項も含めた全ての説明変数に関して尤度やP値などの尺度でランキングを作成して、そこから妥当な個数の上位変数を取り出し(周辺回帰スクリーニング)、その上位変数セットに関して高精度の罰則回帰を施すという二段階の手法の実装を行った。これはFanらの開発した超高次元パラメータ空間における高次元変数選択法であり、Sure Independence Screening(SIS)と呼ばれる。これまでの研究で、もっとも基本的な相互作用単位である二座位のSNPは、3×3の分割表(罹患・非罹患で更に×2)で集計され、何らかのモデルに従って各セルがコーディングされる。遺伝学分野で頻用されるモデルでは、アリルの相加的増加を(0、1、2)としてコーディングし、これをあたかも疾患発症に対する連続的な効果に等しいとして扱うが、このモデルの強い制限が原因で、相互作用を検出することが困難となる。これを回避するために、分割表の各セルを個別に評価するCell-wise Dummy Coding(CDC)と、balanced accuracyのような指標で分割表を柔軟に再構成するAdaptive Dummy Coding(ADC)の二種類のコーディング法を開発し、SISの枠組みにこれを組み込んだソフトウェア実装を行った。まず実際のゲノムデータにこれらのコーディング法を適用して得られた周辺回帰ランキング統計量(尤度やオッズ比やp値)の分布を詳細に検査し、特に上位ランキング変数の抜き出し基準の更なる統計学的検討を行った。また、得られたランキング統計量を重みとしたリッジ回帰の枠組みへの適用も試みた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
大規模ゲノムコホートの研究が生産する網羅的データは少標本高次元の特徴を持ち、典型的なスパースデータ(真の効果をもつ因子は少数)であって、これを統計学的な保証を持って有効に分析する方法が存在しない。本研究では、このような本質的困難の解決策として、最先端の統計学分野でp>>n問題の解決のために開発されてきた高次元変数選択法のような柔軟な各種の統計手法を遺伝学分野に応用し、実際のゲノムコホートデータに適用して、統計学的保証を持って相互作用検索を実現可能にすることを目的としている。具体的には、これまで、申請者ら自身が研究を行ってきたゲノムデータにおける超高次元変数選択法SISの手法や、周辺回帰をリッジ回帰の重みとして用いる柔軟手法をさらに発展させ、実際のゲノムコホートデータでの遺伝子×遺伝子相互作用ならびに遺伝子×環境相互作用への適用を行っている。それらの進捗は当初の研究計画に沿って予定通り実施されている。
|
Strategy for Future Research Activity |
平成28年度で完成した遺伝子×遺伝子ならびに遺伝子×環境相互作用のための高次元変数選択法ソフトウェアを、実際のゲノムコホートデータをテストデータとして適用して、この手法の妥当性を検証し、必要があれば、適宜修正を行う。まずは、東北メディカル・メガバンク機構の前向きゲノムコホートで取得された健康診断データを応答変数として横断的解析を行い、次に、疾患二値データや前向きデータへの適用を順次試みる。
|
Research Products
(9 results)