研究課題/領域番号 |
25460403
|
研究種目 |
基盤研究(C)
|
研究機関 | 東北大学 |
研究代表者 |
田宮 元 東北大学, 東北大学東北メディカル・メガバンク機構, 教授 (10317745)
|
研究分担者 |
植木 優夫 東北大学, 東北大学東北メディカル・メガバンク機構, 助教 (10515860)
中村 智洋 東北大学, 東北大学東北メディカル・メガバンク機構, 助教 (30537923)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 遺伝統計学 / 人類遺伝学 / コホート研究 / 高次元変数選択法 / 遺伝子×環境相互作用 |
研究概要 |
本研究は、疾患発症に効果を持つ遺伝子と環境因子を、ゲノムコホート研究に典型的なp>>n条件の小標本高次元データから統計学的保証を持って、柔軟かつ高速に抽出するために、高次元変数選択の枠組みを利用した遺伝統計手法を開発することを目的としている。平成25年度には、周辺回帰とそれに引き続く罰則回帰による変数選択を組み合わせた高次元変数選択の枠組み(SIS; Sure Independence Screening)を実データ、とくに遺伝子×環境相互作用データに適用可能に拡張するために、下記の手順で解析を行った。 1)ソフトウェア実装と実データでの検査 実際のゲノムデータに対して、分割表の各セルを個別に評価するCell-wise Dummy Coding(CDC)と、balanced accuracyのような指標で分割表を柔軟に再構成するAdaptive Dummy Coding(ADC)の二種類のコーディング法を適用して、得られた周辺回帰ランキング統計量(尤度やオッズ比やp値)の分布を検査した。特に上位ランキング変数の抜き出し基準の統計学的検討を実施した。 2)遺伝子×環境相互作用への拡張 飲酒や喫煙などの生活習慣に関する環境暴露データを、順位のあるダミー変数あるいは順位のないダミー変数としてコーディングし、SNPとの分割表を集計することで、上記のSISの枠組みによるソフトウェアプログラムを遺伝子×環境相互作用の解析に拡張した。 この拡張による統計量の分布を1)と同様に検査し、もっとも安定した統計量と閾値などの検討を引き続き実施している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
疾患発症に対して、隠された強い効果として期待される「要因間(遺伝子×遺伝子あるいは遺伝子×環境)の相互作用」の解析を実現するためには、最先端の統計学分野でp>>n問題の解決のために開発されてきた高次元変数選択法のような柔軟な各種の統計手法を遺伝学分野に応用すること、さらに実際のゲノムコホートデータに適用して、統計学的保証を持って相互作用検索を実現可能にすることが必要である。そのために、これまで行ってきたゲノムデータにおける超高次元変数選択法SIS(Sure Independence Screening)の研究をさらに発展させ、実際のゲノムコホートデータでの遺伝子×遺伝子相互作用ならびに遺伝子×環境相互作用への適用を進めてきた。それらの進捗は当初の研究計画に沿って予定通り実施されている。
|
今後の研究の推進方策 |
平成25年度で完成した遺伝子×遺伝子ならびに遺伝子×環境相互作用のための高次元変数選択法ソフトウェアを、実際のゲノムコホートデータをテストデータとして適用して、この手法の妥当性を検証し、必要があれば、適宜修正を行う。まずは、健康診断データを応答変数として横断的解析を行い、次に、疾患二値データや前向きデータへの適用を順次試みる。
|
次年度の研究費の使用計画 |
相互作用解析ソフトウェアを開発するにあたり、PCパーツを追加し、計算環境を進捗に合わせて拡張してきた。特に、公共データベースから得られたデータや、計算実行時の一時データを保存するための、ストレージ増設を予定していた。年度途中に、新しいヒトゲノムリファレンス配列(hg38)が公開されたため、計画外であったがこれをキャッチアップするものとした。そのためには小規模にリソースを追加するよりも、購入時期をずらすことによって、同価格でより容量の多い後継品を選ぶほうが効率的と考えたため。 データの一時保存先を調整することにより、ストレージ拡張まで研究計画の進捗に影響することがないものと見込んでいる。翌年度のデータが蓄積されてきた時点で、次年度使用額に相当する範囲内で購入可能な、より容量の多い後継品を購入する。
|