研究課題/領域番号 |
23650153
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
関 浩之 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (80196948)
|
研究分担者 |
加藤 有己 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (10511280)
|
研究期間 (年度) |
2011-04-28 – 2013-03-31
|
キーワード | RNA-タンパク質相互作用 / RNA2次構造 / RNA間相互作用 / 機械学習 / 最適化 |
研究概要 |
生体内に存在する機能性RNAは多くの場合、タンパク質と結合することでその機能を発現することが知られている。また、両者とも折り畳み構造を持つことが多く、その構造が相互作用の形成に大きな影響を与えると考えられている。RNAとタンパク質の相互作用予測は、その取り得る結合構造の複雑さやバリエーションの多さなどのため未だ確立された予測手法がなく、発展途上かつ挑戦的研究課題であると言える。本研究では、離散最適化法に基づくRNAおよびタンパク質の2次構造予測法を発展させ、RNA-タンパク質相互作用のモデル化を組織的に行い、精度の良い相互作用予測法の開発を目指す。今年度では、基盤予測法として1本鎖RNA配列の構造解析に焦点を当て、昨年度分担者が開発したRNA間相互作用予測法RactIPの方法論を応用し、シュードノットと呼ばれる複雑な2次構造を考慮した高速な予測法を開発した。まず、シュードノットを含む2次構造の事後確率分布を、シュードノットを含まない2次構造の確率分布の積へ分解を行った。次に、最適化における目的関数の設定において、予測2次構造の期待精度の最大化に主眼を置き、期待精度最大化問題を閾値カット付き整数計画問題として実現した。さらに、多重配列アラインメントが与えられたとき、その共通2次構造を予測するようにモデルの拡張を行った。提案手法(IPknot)の性能評価を構造既知の配列データセットを用いて行ったところ、複数の既存手法と比べて精度の点では同等以上、速度の点では桁違いの高速性を実現した。最後に、研究成果を広く世界に向けて発信するため、IPknotのWebサーバーを開発し、今年度補完したRactIPのサーバーと統合することで、世界最高レベルの高速性を実現するRNA構造解析ツールセットを公開した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
本課題の主な目的はRNAとタンパク質の相互作用予測であり、単一RNA配列および多重配列に対する構造予測法の開発はあくまでその基盤を与えるものである。もちろん、シュードノットを含めた複雑な構造を高速かつ高精度に行うことは、相互作用予測を行う準備として十分貢献し得るものと確信する。また、分担者が昨年度開発したRNA間相互作用予測法は本課題遂行において重要な基盤技術を含むと考えている。今年度の進捗状況がやや芳しくないと判断する理由は以下の通りである。相互作用予測に向けて詳細な調査を行って得られた知見は、RNAとタンパク質の相互作用を予測するためには、その両者の立体構造に近い情報までの予測を行わなければ、正確な予測が難しいということである。本課題は配列情報のみから解析を行うことに主眼を置いている。配列情報から立体構造などの高次構造を予測することはRNAに限って言及すれば容易ではなく、現在発展途上の課題となっている。特に、RNAのA-U、C-G、G-U以外の非正準塩基対、および立体構造上で観測される同軸スタックを予測することは立体構造予測への大きな足がかりとして期待されている一方で、計算機科学的手法で必要となるスコア関数が十分に提案されていない状況でもある。現在、非正準塩基対と同軸スタックを予測するためのデコーディングモデルはほぼ完成しているが、最適化に用いるスコア関数については検討中である。一方、タンパク質の構造予測は過去に2次構造の一要素であるベータシートに限定して行った経緯があるが、それ以後の進展はないため、何らかの手法で得られた構造情報をうまくモデルに組み込むことが、今後の課題として行うべきものとなる。最後に、相互作用する生体分子のクラスをある程度限定する必要があると考えており、その上で機械学習を用いてスコア関数を定量化する必要があると思われる。
|
今後の研究の推進方策 |
(1) 機械学習によるスコア関数の計算まず、非正準塩基対確率分布の計算に用いるパラメータをマージン最大化問題などに定式化して学習する。各確率値は後に整数計画問題の目的関数に組み込まれる。また、タンパク質構造情報も同様に目的関数に統合する。相互作用の情報はRNAの1塩基とタンパク質の1アミノ酸残基の相互作用スコアによって表現する。そして、既知のRNA-タンパク質複合体を訓練データとして相互作用スコアを計算するアルゴリズムを開発する。ここでは、サポートベクトルマシンに基づく機械学習アルゴリズムを用いる予定である。また、1塩基-1残基モデルで十分な精度が得られない場合を想定し、1塩基-1残基ドメイン(短い残基列)モデルに基づくスコア計算アルゴリズムも設計する。(2) 整数計画法によるRNA-タンパク質相互作用予測RNA-タンパク質相互作用予測に対して計算コストの削減が可能となるような定式化を考える。ここでは、予測結合構造の期待精度を最大化することが目標となる。そのため、RNAとタンパク質の構造及びその相互作用に対応するスコアに、適切な確率を割り当てる必要がある。RNA2次構造に対しては、非正準塩基対を考慮した塩基対確率を利用することを考える。タンパク質2次構造に対しては、アミノ酸残基間のコンタクトポテンシャルを確率に変換することである程度対応できると思われる。また、相互作用に対しては、手順1のスコアを用いることにする。(3) 計算機実験上述の整数計画問題を解くツールをJava言語を用いて計算機に実装する。その後、相互作用することが実験的に確かめられているRNA-タンパク質複合体と提案手法が出力した予測構造を比較し、予測精度や計算速度などを評価することで、有効性の検証や問題点の検討を行う。
|
次年度の研究費の使用計画 |
未使用額が生じた要因は、研究の進捗状況に合わせ、予算執行計画を変更したことに伴うものである。また、次年度の請求額と合わせての執行計画は以下のとおりである。物品費として、研究調査のための情報科学関連および生体生命情報学関連の書籍を購入する必要があるため書籍費を計上している。また、研究補助を行う人材が実装予定のシステム開発を円滑に行うためのノートパソコン1台の経費を計上している。旅費として、研究成果発表(国内2回、海外1回)を行うための経費を計上している。提案アルゴリズムの実装、計算機実験には多大な労力を要するため、高度なプログラミング能力を備えた人材に協力を要請する。そのための謝金(1人×6カ月/年)を計上している。その他として、研究の成果発表の場である国際会議での論文発表を計画している。そのための国際会議参加費を計上している。また、オープンアクセスジャーナルのための論文掲載費を計上している。
|