疾患発症に効果を持つ環境因子と遺伝子を同定するためのゲノムコホートデータは、サンプル数に対して推定すべきパラメータの数が圧倒的に多いいわゆる小標本高次元の特徴を持ち、典型的なスパース(疎性)データである。このようなデータから、柔軟かつ高速に効果因子を抽出するために、疎性モデリングを利用した遺伝統計ソフトウェアプログラムを開発済みである。それらを、実際に国内最大級の前向きゲノムコホートのデータ(横断および前向き)の分析に適用して、健康診断値変化(量的データ)および疾患発症(二値データ)に寄与する相互作用候補をリストアップすることを目的としている。令和4年度には、これまでの研究で開発してきた超高次元変数選択法ソフトウェアを、東北メディカル・メガバンクのゲノムコホートからの精神健康状態に関するマルチスケールデータへ適用して、遺伝子×遺伝子ならびに遺伝子×環境相互作用の解析を実行し、リスク予測を進めてきた。全相互作用効果の周辺回帰スクリーニングとそれに引き続く罰則回帰による変数選択を組み合わせた高次元変数選択の枠組み(SIS)ならびに、周辺回帰ランキング統計量を重みに用いたリッジ回帰の枠組み(STMGP)を、実データに大規模に適用した。また、HSIC-Lassoなどを用いて非線形のマルチスケールデータからの柔軟な特徴抽出を行った。前年度の計算結果について、UKバイオバンクのような大規模な海外の前向きゲノムコホート、また、JMICのような国内の大規模な前向きゲノムコホートを用いた検証を行っており、すべての集団について前向きに取得された疾患データや健康診断データを利用し、これらの応答変数に対して効果を持つ相互作用を検索した。これらの手順を繰り返すことで、疾患感受性に寄与する相互作用候補をリストアップした。
|