研究課題/領域番号 |
18J21767
|
研究機関 | 慶應義塾大学 |
研究代表者 |
秋山 真那斗 慶應義塾大学, 理工学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2018-04-25 – 2021-03-31
|
キーワード | 非コードRNA / バイオインフォマティクス / 深層学習 / RNA二次構造 |
研究実績の概要 |
RNA二次構造をより正確に予測できる適切なパラメータ空間を見つけるための効果的で効率的な手法はまだ知られていない。そこで本研究ではRNAの各塩基が塩基対を形成する確率いわゆる塩基対確率をニューラルネットワークにより直接算出することでパラメータ空間を明示的に定義することなくRNA二次構造の予測を行う枠組みを構築した。 具体的には、本研究ではまず塩基配列とその配列が形成する二次構造データを学習データとして用意した。続いて、RNA配列における任意の塩基同士が塩基対を形成する確率をすべての塩基対の組み合わせについて入力を塩基配列,出力を塩基対確率とする多層のニューラルネットワークを用いて算出した。続いて得られた塩基対確率行列から、動的計画法により効率よく塩基対確率の総和を最大化する二次構造を探索した。この時、シュードノット付きの二次構造を予測する場合には動的計画法の代わりとして整数計画法を採用した。最後に、正解二次構造と予測二次構造を近づけるように構造学習(SSVM)を行った。こうして得られたパラメータをテストデータに適用することで予測精度を算出した。シュードノット付きの二次構造については10分割交差検証を実施した。本手法の予測精度は特定のデータセットについてパラメータ空間を独自に定義する他手法と比較して良好な結果となった。さらに本手法では通常のRNA二次構造に加えてシュードノット構造付きの二次構造の学習及び予測が可能であり、これについても最高精度を達成している。 また、機械学習により得られた特徴構造のパラメータ値と実験により得られた特徴構造のパラメータ値を統合することでいずれか一方を予測に適用した場合よりも高い汎化性能を獲得することが判明した。このことは実験により測定不能なパラメータ値であっても学習データセットに現れるものであればパラメータ値を補完できることを示唆している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
特徴構造を明示的に定義せずに二次構造予測を行う枠組みを構築し、一定の精度を達成した。更に実験により導出されたパラメータ値と機械学習により決定されたパラメータ値を組み合わせることで高い精度を達成することを発見した。これらのことから研究計画の1年目に予定していた項目をおおむね達成できたと言える。
|
今後の研究の推進方策 |
これまでのところ比較的配列長の長いRNA配列に対する構造予測では十分な精度が得られなかった。学習データに対する予測精度は非常に高い値を示すことから、本手法では十分な汎化性能を獲得できていないことが示唆される。昨年度の調査において機械学習により得られた特徴構造のパラメータ値と実験により得られた特徴構造のパラメータ値を統合することで高い汎化性能を獲得することが判明しており、この手法の適用を検討する。 また、作成したRNA二次構造予測ツールを用いてncRNAのfamily分類のためのツールを新たに作成する。ncRNAのfamily分類はその分子機能により行われるため正しい二次構造を知る事は正しい分類に寄与することが考えられる。本研究では作成したツールを用いて予測した二次構造を適切な処理の後、ニューラルネットワークへ代入することで低次元空間へマップすることを考える。マップされた空間上では同一のfamily群はユークリッド距離で近い場所に位置しておりこの空間上でクラスタリングを行うことでfamily分類を達成したい。
|