研究課題/領域番号 |
25700029
|
研究種目 |
若手研究(A)
|
研究機関 | 九州大学 |
研究代表者 |
山西 芳裕 九州大学, 高等研究院, 准教授 (60437267)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 機械学習 / インシリコ創薬 / 標的分子 / 相互作用予測 / 薬物 |
研究概要 |
薬物・標的タンパク質間相互作用の同定は、医薬品開発において最重要課題である。ポストゲノム研究では、ゲノム、トランスクリプトーム、プロテオームなどの遺伝子やタンパク質に関する大量のオミックスデータが得られるようになってきた。同時に、膨大な数の化合物や薬物に関するケミカル情報や生理活性情報も蓄積されている。本研究プロジェクトでは、そのような薬物やタンパク質に関する膨大なオミックスデータを融合解析し、未知の薬物・標的タンパク質間相互作用を予測するための機械学習の手法を開発することを目的としている。 初年度である平成25年度は、薬物やタンパク質に関する様々なデータを収集し、薬物・タンパク質ペアの特徴を表現する手法の開発を行った。薬物の化学部分構造、副作用、タンパク質の機能ドメインなどの様々なデータを記述子で表し、それを組み合わせることで薬物・タンパク質ペアの特徴をフィンガープリント(高次元のバイナリ特徴ベクトル)で表現する方法を提案した。次に、薬物・タンパク質間相互作用ペアを解析する手法を開発した。機械学習の分野で有望視されている分類器を適用し、各薬物・タンパク質ペアを相互作用の可能性を予測した。同時に、相互作用に関連があるとモデルから推測される薬物の化学部分構造、副作用、機能ドメインなどの特徴を抽出し、生物学的な考察を行った。またクロスバリデーション実験によってその有用性を確認した。提案手法と解析結果について、国際学術雑誌(BMC Systems Biology誌やMolecular Informatics誌など)への論文発表を4件行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
初年度である平成25年度は、まず薬物関連データの収集を行った。薬物の化学構造、標的分子やオフターゲットの情報、薬物の副作用データ、タンパク質の機能ドメイン情報は、様々な公共データベース(KEGG, DrugBank, Matador, ChEMBLなど)から得た。当初の計画通りに、データの準備をすることができた。 それらのデータに基づき、薬物やタンパク質の記述子、薬物・タンパク質ペアを表すフィンガープリントを開発した。薬物の記述子とタンパク質の記述子を別々に構築し、それをテンソル積で繋ぎ合わせることによって、各薬物・タンパク質ペアをフィンガープリント(高次元のバイナリ特徴ベクトル)で表した。またフィンガープリントにminwise hashingというアルゴリズムを適用することで、情報をなるべく落とさずに低次元のフィンガープリントに変換する方法を開発した。当初の計画通りに、フィンガープリントの構築をすることができた。 次に、薬物・タンパク質間相互作用ペアを解析する手法を開発した。機械学習の分野で有望視されているスパースモデルに基づく分類器(L1罰則化に基づくロジスティック回帰など)を適用し、各薬物・タンパク質ペアを相互作用を解析および予測した。同時に、相互作用に関連があると推測される薬物の化学部分構造、副作用、機能ドメインなどの特徴を抽出し、生物学的な考察を行った。当初の計画通りに、小規模データに対しては解析をすることができた。 初年度の成果について、国際学術雑誌への論文発表を4件、国際学会での発表を3件、国内学会での発表を6件行った。そのため、本研究プロジェクトは、おおむね順調に進展していると考えることができる。
|
今後の研究の推進方策 |
初年度に行った研究の知見をもとに、提案手法の理論やアルゴリズムを更に発展させる。初年度で提案した方法は、膨大なメモリと計算時間を必要とするため、限られた数の薬物やタンパク質のペアにしか適用できず、記述子として表現できるデータの種類も少なかった。そこで今後は、大規模な適用を可能にする手法の理論構築と効率的なアルゴリズムの開発を行う。データマイニングの分野で有効性が確認されているデータ簡素構造表現のアイデアを提案手法に導入することを試みる。専門知識を持つ研究協力者と定期的に研究打ち合わせを行い、実装における問題点をできるだけ早期に発見し、研究プロジェクトの円滑な進行を促す。 薬物やタンパク質に関する他のデータ(薬理作用情報やパスウェイ情報など)を追加し、薬物やタンパク質のデータ数を増やして解析を行う。提案手法を公共データベースに登録されている全ての薬物(または候補化合物)とヒトの全てのタンパク質に適用する。相互作用パターンを表す特徴の網羅的な抽出と、未知の薬物・タンパク質間相互作用の大規模な予測を行う。最終的に開発した手法を適用した結果、抽出した特徴や予測された薬物・タンパク質間相互作用に対して妥当性の検証を行う。研究を効率良く遂行するため、専門知識を持つ研究協力者と定期的に研究打ち合わせを行い、生物学的な解析が円滑な進行するように務める。 国内外の最新の関連研究動向の情報収集を積極的に行い、論文発表や情報発信を適切な時期に有効に行えるように最新の注意を払う。提案手法のアルゴリズムや生物学的な解析結果を論文発表や学会発表し、ウェブ上で公開する。また製薬企業と積極的に議論し、医療や創薬への応用を検討する。開発した手法のソフトウェアを作成し、ウェブ上で計算を実行できる計算サーバを構築する。
|
次年度の研究費の使用計画 |
本研究プロジェクトのために最新の高性能計算機を発売予定日の前から予約していたが、販売メーカー側の都合で発売日が当初の予定よりも大幅に遅れたため、年度内に購入することができなくなった。また雇用する予定だった研究員の応募が期待通りに集まらず、雇用者の決定が遅れたため次年度使用額が生じた。 本年度は採用する研究員が既に決まっているため、その人件費に4月初めから使用する予定である。初年度からの研究活動が実り順調に研究成果が出てきており、本年度はその成果を適切なタイミングで発表していくため、国際学会や国内学会への参加費用、論文出版費用に適時使用していく予定である。また計算リソース強化やデータベース作成のための計算機やストレージの購入に、適時使用していく予定である。
|