研究課題/領域番号 |
20K12048
|
研究機関 | 東京情報大学 |
研究代表者 |
村上 洋一 東京情報大学, 総合情報学部, 准教授 (20548424)
|
研究期間 (年度) |
2020-04-01 – 2025-03-31
|
キーワード | バイオインフォマティクス / タンパク質間相互作用予測 / 機械学習 / テキストマイニング / 創薬支援 |
研究実績の概要 |
2つの配列が与えられたとき,これらの配列間で相互作用する可能性が高いアミノ酸残基を予測する手法の開発を行うと同時に,1つの配列が与えられたとき,これと相互作用する可能性が高いタンパク質を予測した後,これらの相互作用部位を予測するパイプラインの開発も行なっている.後者に関して,近年,自然言語処理の埋め込み法を,タンパク質間の相互作用(PPI)予測に応用する研究成果が報告されている.すなわち,タンパク質の配列を文字列として扱い,その文脈情報を保持しつつ変換したベクトルを用いて,PPIを予測する手法の有効性が報告されている. しかしながら,タンパク質の配列の文脈情報が,埋め込み法によってどの程度保持されているのかについて十分な解析がされていない.そこで,文の埋め込み手法である,Doc2Vecによって変換されたタンパク質のベクトルと構造との関係性について解析を行った.その結果,ベクトル類似度と構造類似度との間に弱い相関があることがわかった.すなわち,Doc2Vecを用いて変換されたタンパク質の埋め込み表現は,配列から構造の文脈情報を効果的に捉えている可能性が示唆された. また,Doc2Vecに基づくPPI予測モデルと位置特異的なスコア行列(PSSM)に基づくPPI予測モデルのそれぞれの分類結果を,単純なvoting法によるアンサンブル学習によって予測する手法を開発した.5分割交差検証の結果,それぞれの予測モデルよりも高い性能を示すことができた.またベンチマークテストでは,先行研究よりも高い性能を示すことができた.すなわち,Doc2Vecに基づく埋め込みモデルとPSSMを組み合わせることで,PPI予測性能の向上が図られることが示唆された.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
令和5年度は,前年度から継続して,自然言語処理の埋め込み法が,タンパク質の配列の文脈情報をどの程度保持しているかについて理解するために,タンパク質のベクトルと構造との関係性について解析に時間を費やしてしまった.また,Doc2Vecに基づくPPI予測モデルと位置特異的なスコア行列(PSSM)に基づくPPI予測モデルのそれぞれの分類結果を,単純なvoting法によるアンサンブル学習によって予測する手法の開発にも時間を費やしてしまった.そのため,本手法を相互作用パートナーの予測に応用するシステムの開発,また相互作用パートナーの予測後に相互作用部位予測までを行うパイプラインの開発に着手することができなかった。
|
今後の研究の推進方策 |
タンパク質の埋め込み手法を用いて新たに開発したPPI予測手法を相互作用パートナー予測に応用し,また相互作用パートナー予測後に相互作用部位予測を行うパイプラインの開発を進める。また予測結果に配列や構造に関する情報を統合し,結合に重要なアミノ酸残基の絞り込みを支援するシステムを開発を進める.
|
次年度使用額が生じた理由 |
タンパク質の相互作用パートナー予測の開発に時間を費やしたため,全体的に研究計画に遅れが生じてしまった.それにより,予定していた研究発表のための学会や研究会などへの参加のための旅費交通費が発生しなかったため.また,予定していた論文投稿費が発生しなかったため. 学会や研究会等への参加費,旅費,論文投稿費等として使用する.また,データやプログラムのバックアップ用のNAS HDD等の購入費として使用する.
|