研究課題/領域番号 |
15K16082
|
研究機関 | 東京工業大学 |
研究代表者 |
石田 貴士 東京工業大学, 情報理工学(系)研究科, 准教授 (40508355)
|
研究期間 (年度) |
2015-04-01 – 2017-03-31
|
キーワード | 顧みられない熱帯病 / シャーガス病 / 創薬標的タンパク質選択 / タンパク質立体構造 / ランキング学習 |
研究実績の概要 |
「顧みられない熱帯病」向け創薬において、構造ベースで創薬を行う上で問題のひとつとなっている創薬標的タンパク質の選定を改善するため、ゲノムワイドな立体構造予測と選択支援システムの開発を行った。 まず、スーパーコンピュータTSUBAME2.5上にタンパク質立体構造全自動予測パイプラインを構築し、代表的な寄生原虫症であるシャーガス病の病原体のTrypanosoma cruziのゲノム上にコードされた全タンパク質である10,339タンパク質に対して、ホモロジーモデリングソフトウェアであるModellerを用いて立体構造予測を行い、既知構造との間で配列の相同性が存在した3,456タンパク質について予測立体構造モデルを得た。また、予測構造モデルのクオリティについての評価スコアを計算し、信頼性についての情報も付加した。 これによって立体構造情報を参照しての選定が可能となった一方で、参照可能な情報が増えすぎ、利用者にとって逆にシステムが使いにくくなるという問題が発生した。そのため、機械学習手法の一つであるランキング学習を用いることで標的選択を効率化する手法を開発した。これは利用者に少数のタンパク質セットから、標的として好ましいタンパク質を選択してもらい、その情報を利用してランク予測モデルを構築し、10,339タンパク質をランク付けするものである。学習アルゴリズムとしてrankSVMを利用した手法では、nDCGiで0.948という性能を達成し、利用者にとって望ましいタンパク質を自動的に抽出可能であることが示された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初の予定では初年度にゲノムワイドなタンパク質予測立体構造モデルの構築に加え、ポケット領域の予測などを行い、創薬研究において重要となる立体構造関連の情報を付加する予定であった。しかし、予測構造モデルの情報のみが加わった状態でも利用者が参照すべき情報が多くなりすぎ、創薬標的タンパク質の選択を補助するという目的が困難となってきた。そのため、次年度に行う予定であったインターフェースの開発を前倒しし、データ構築の完成に先駆けて選定を効率化するための手法の開発を優先した。その結果ランキング学習を用いた自動ランク付けシステムの開発が順調に進んでおり、全体としてはおおむね順調な進捗であると考えている。
|
今後の研究の推進方策 |
今後はまず初年度に行う予定であったポケット領域の予測などを行い、必要なデータの構築を優先する。また、予測立体構造モデルの構築についても、プロトコル、パイプラインの再検証を行い、現在よりもより多くのタンパク質についての予測立体構造モデルの構築を目指す。インターフェースの改良については、ランキング学習による自動ランク付け手法を現在のwebシステムであるiNTRODBに組み込み、一般の利用者でも容易に利用が可能となるようにすると同時に、ポケットの位置やモデルのクオリティを仮想3次元空間上で確認可能とするシステムの開発を行う。
|
次年度使用額が生じた理由 |
当初予定していた大量の計算資源を必要とするゲノムワイドなタンパク質ポケット領域の予測を当該年度には行なわなかったため、予定した計算機使用料(TSUBAME2.5使用料)を使用しなかったことが理由である。
|
次年度使用額の使用計画 |
次年度に大量の計算資源を必要とするゲノムワイドなタンパク質ポケット領域の予測を行うため、その際の計算機使用料(TSUBAME2.5使用料)として使用する。
|