2019 年度実施状況報告書

遺伝子数増大に耐える高精度遺伝子制御ネットワーク推定法の提案

研究課題

研究課題/領域番号	19K16112
研究機関	慶應義塾大学
研究代表者	山田貴大慶應義塾大学, 理工学部(矢上), 助教 (20837736)
研究期間 (年度)	2019-04-01 – 2021-03-31
キーワード	遺伝子制御ネットワーク / ネットワーク推定 / L1正則化 / Omicsデータ解析
研究実績の概要	まず、計画時点で検討していたL1正則化を適用した勾配ブースティング木による回帰を可能とするXGBoostを既存のRandom Forestをベースとしていた遺伝子制御ネットワーク推定アルゴリズムに組み込んだ。この過程で、XGBoostにおけるL1正則化は遺伝子制御関係に対する正則化として不適であることが明らかとなり、制御関係に対する正則化を実現できるように正則化項の数式誘導を行い、誘導後の正則化項をXGBoostの回帰過程に組み込んだ。上記の数式誘導に並行して、評価用の遺伝子制御ネットワーク構造と各遺伝子時系列発現量データとしてDREAM4 in silico challengeに公開されているデータセット (遺伝子数が10,50,100から構成される)の取得を行なった。さらに最終的にL1正則化の効果である遺伝子数増大による推定精度の減少抑制を確認するために、遺伝子数が10,50,100,500,1,000個からなるデータセットをin silicoデータセット作成ツールであるGeneNetWeaverを用いて作成した。現状の評価として、まず上記の準備したデータセットのうちDREAM4 in silico challengeに公開されているデータセットを用いて制御関係に対するL1正則化を適用した新規遺伝子制御ネットワーク推定アルゴリズムによる遺伝子制御ネットワークの推定を行い、既存の手法であるBiXGBoostによる推定との精度の比較評価を行なった。その結果、10,50,100遺伝子を対象とした場合においてBiXGBoostに対する顕著な推定精度の向上は認められなかった。この主な原因として、1) L1正則化の効果が出るための十分な遺伝子数により構成される遺伝子制御ネットワークを対象としていなかった、2) L1正則化では推定時における罰則が弱すぎた、などが検討された。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由まず予定していたデータセットの準備および遺伝子制御ネットワーク推定の評価系の構築は概ね終了した。また評価系においては、提案アルゴリズムや比較対象となるアルゴリズムによる比較評価系も構築ができ、アルゴリズムの修正後の改良の有無も円滑に評価できるようになった。提案アルゴリズムに関しては、当初予定していたXGBoostによる正則化が遺伝子制御ネットワーク推定における制御関係に対する正則化として機能しないことを理論的に明らかにすることができ、これにより遺伝子制御ネットワーク推定に至適化した正則化項の数式誘導を達成した。至適化した正則化項はXGBoostにおけるパラメータの関数のL1ノルムとなり、XGBoostにおける正則化項よりも複雑な、勾配ブースティング木内の情報の探索に基づくL1ノルムの算出を行う必要があった。本年度ではこの遺伝子制御ネットワーク推定のL1正則化項算出のプログラムを前述の数式誘導に基づき実装することができた。このように遺伝子制御ネットワーク推定に至適化した新規のL1正則化項の導出と、その複雑な過程のプログラムとしての実装を達成できたことは計画当初のXGBoostをそのまま組み込む実装を行うという予想を超えた本研究の独創性の観点から大きな進捗と言える。一方で、現在既存の遺伝子制御ネットワーク推定アルゴリズムであるBiXGBoostに対する推定精度の大幅な向上は認められていないが、対象とする遺伝子数が少なすぎた、正則化の効果が推定に際して不十分である可能性などが既存アルゴリズムとの比較評価の過程で明らかになった。これらの内容を総括すると、精度評価結果に不十分さが残るものの、データセット準備や評価系の構築などの下準備に当たる計画の達成、独創的なアルゴリズムの立案と実装に関しては非常に大きな進展を得たことを鑑みると、おおむね順調に進んでいると考えられる。
今後の研究の推進方策	まず、本年度に準備した1,000遺伝子までからなる遺伝子制御ネットワークの時系列データを元に提案アルゴリズムによる遺伝子制御ネットワーク推定を行い、既存アルゴリズムのBiXGBoostとの間で比較評価を行う。これにより大多数の遺伝子を含む遺伝子制御ネットワークに対するL1正則化の効果の有無について検証する。また、課題として検討されたL1正則化による罰則が弱すぎたという点については、1) 解析過程におけるL1正則化項の値を明示的に増加させる、もしくは2)L1正則化よりも強い罰則を与えることのできるLp正則化 (0<p<1)の適用による正則化項の増強を検討している。1)についてはL1正則化項の効果を増大させた時の推定精度の比較評価をすることで、この手法による改良の有無を判断する。また2)については本年度行なった方法に倣い、遺伝子制御ネットワーク推定に関するLp正則化項を数式誘導して実装し、L1正則化を適用したアルゴリズムとの間で推定精度の比較評価を行うことで、この手法による改良の有無を判断する。これらの施策を行なった上で、BiXGBoost他、既存の遺伝子制御ネットワーク推定手法に対する推定精度に関する優位性が確認されたら当該研究内容をまとめて学会発表、学術論文としてまとめる。さらに、学術論文としてまとめることに並行して当該アルゴリズムを一般に利用可能にするために、実装したプログラムのパッケージ化やネットワーク解析のツールとして知られるCytoScapeのプラグインとしての実装を行うことを企画している。これにより大規模な遺伝子数により構成された時系列遺伝子発現量データ (RNA-seqなど)が取得された際の発現変動遺伝子解析に続く、新たな簡便に行えるDownstreamの解析手法として定着させることを目指す。
次年度使用額が生じた理由	本年度は遺伝子制御ネットワーク推定に至適化したL1正則化項の導出などの数学的な内容に取り組んだため、当初予定していたよりも計算機の利用、解析データの保存のためのストレージの準備の必要性が減ったため、これらの購入が不必要となり次年度使用額が生じた。そのため、当初の計画では本年度に予定していた計算機 (MacBookProなど)やストレージ(外付けHDDなど)を次年度の物品費として計画している。また、次年度において得られる研究成果の発表のための学会参加に関しての旅費、および論文出版に関わる英文校閲や出版費などの諸経費をその他として計画している。