前年に引き続き、理化学研究所統合生命医科学研究センターが有するIllumina OmniシリーズのSNPアレイにより生成された全ゲノムSNP遺伝型データを用いて、全ゲノムSNPデータを構造として捉える解析を実施した。 本年度は、客員研究員の小井土 大氏と協力し、Random Forest法の他、LASSO、Elastic Net、Support Vector Machine、Extremely Random Tree、mixed RF法(機械学習的なRandom Forest法に、遺伝統計学的なVariance Componentモデルを用いたMajor gene効果モデルを適用したもの)などの様々な機械学習手法の適用を行い、その性能を比較した。これにより最も適切にゲノムと表現型との関係を記述できる手法を探索した。それにより、一定の結果を得ることに成功した。これについては今後も研究を進展させていく予定である。 他方、前年度より取り組んでいる非加法的効果のVariance componentを解明する試みについては、今後も引き続き継続していくこととした。主な問題点はモデルというよりは効率的な計算を行わなければならない点にあり、効率的なプログラムの実装が必要である。 またその一方、研修生の金井正弘氏とともに、全ゲノムSNPデータに標準的解析(ポリジェニックモデルによる解析)を行った後、その関係性を観察することからバイオバンクジャパンのゲノムデータの構造解明、さらにはアジア人集団・欧州系集団の疾患など形質への遺伝的効果の構造解明へと迫る取り組みを行った。その結果、ポリジェニックモデルの観点から、集団間で遺伝構造的に類似する疾患、異なる疾患などがあることを発見した。
|