合成生物学は,生命を再構成することによってその完全な理解を目指す究極のアプローチであると同時に,生物の工学的な応用に繋がることからその産業的な価値も極めて高い.しかし,生命として完全に機能するゲノム配列を設計して,人工的な生命を合成することは困難を極める挑戦的な課題である.本研究では,人工知能・機械学習の最先端技術である敵対的生成ネットワーク(Generative Adversarial Networks; GAN)や深層強化学習による生成モデルを合成生物学に応用し,計算機を用いたゲノム設計の全く新しい手法(インシリコゲノム合成)を開発する.これにより,これまでゲノム配列の決定だけでは決してなし得なかった生命のシステム的理解への到達を目指す.特定の形質を持つゲノム配列生成を目指して,ある特定の二次構造を形成するRNA配列を設計するRNA配列設計問題に取り組んだ.離散値である塩基配列をActivation Maximizationを用いて最適化する手法をRNA配列設計問題へ応用した.微分可能なRNA配列の表現へと変換した.二次構造予測によって得られた最小自由エネルギーとなる二次構造とターゲット二次構造との差異を微分可能な編集距離として算出した.また,深層強化学習手法を用いて生成配列のGC含有量を制御する手法を実装した.ターゲットGC含有量の情報を入力の表現と報酬の計算にそれぞれ組み込んだ.既存の学習モデルをベースモデルとして,対数確率から塩基を確率的に選択するためのsoftmax関数に,ターゲットGC含有量についての疑似度数を組み込んだ.また,疑似度数の計算方法として,位置に依存しない各塩基についての疑似度数を与える方法と,ニューラルネットワークを用いて計算する方法を検討した.いずれの手法も,損失関数の値の推移と評価実験の結果から効率的な学習が難しく予測精度の向上は見られず,改善の余地が残る.
|