研究実績の概要 |
まず、計画時点で検討していたL1正則化を適用した勾配ブースティング木による回帰を可能とするXGBoostを既存のRandom Forestをベースとしていた遺伝子制御ネットワーク推定アルゴリズムに組み込んだ。この過程で、XGBoostにおけるL1正則化は遺伝子制御関係に対する正則化として不適であることが明らかとなり、制御関係に対する正則化を実現できるように正則化項の数式誘導を行い、誘導後の正則化項をXGBoostの回帰過程に組み込んだ。 上記の数式誘導に並行して、評価用の遺伝子制御ネットワーク構造と各遺伝子時系列発現量データとしてDREAM4 in silico challengeに公開されているデータセット (遺伝子数が10,50,100から構成される)の取得を行なった。さらに最終的にL1正則化の効果である遺伝子数増大による推定精度の減少抑制を確認するために、遺伝子数が10,50,100,500,1,000個からなるデータセットをin silicoデータセット作成ツールであるGeneNetWeaverを用いて作成した。 現状の評価として、まず上記の準備したデータセットのうちDREAM4 in silico challengeに公開されているデータセットを用いて制御関係に対するL1正則化を適用した新規遺伝子制御ネットワーク推定アルゴリズムによる遺伝子制御ネットワークの推定を行い、既存の手法であるBiXGBoostによる推定との精度の比較評価を行なった。その結果、10,50,100遺伝子を対象とした場合においてBiXGBoostに対する顕著な推定精度の向上は認められなかった。 この主な原因として、1) L1正則化の効果が出るための十分な遺伝子数により構成される遺伝子制御ネットワークを対象としていなかった、2) L1正則化では推定時における罰則が弱すぎた、などが検討された。
|