研究課題/領域番号 |
16K00392
|
研究機関 | 京都大学 |
研究代表者 |
林田 守広 京都大学, 化学研究所, 助教 (40402929)
|
研究分担者 |
小谷野 仁 国立研究開発法人理化学研究所, 生命システム研究センター, 研究員 (10570989)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 宿主病原体相互作用 / 局所トポロジー / Dicer切断部位 / 三角不等式 / 中央文字列 |
研究実績の概要 |
本研究課題の主要な目的の一つであるタンパク質間の相互作用に対する予測手法の開発を,病原体のタンパク質と宿主のタンパク質との相互作用に限定して行った.病原体と宿主間において相互作用するタンパク質を同定することで,病原体感染のメカニズム解明および感染症の新たな治療法発見の手がかりとする.宿主内におけるタンパク質間相互作用ネットワークのあるノード周辺の局所的なグラフ構造に基づいた特徴量およびアミノ酸配列に基づいた特徴量から機械学習手法を適用した.分類器としてSGD および SCW を組み合わせた.4種の病原体,B. anthracis, F. tularensis, S. typhi, Y. pestis とヒトとの間のタンパク質の対に適用し10分割交差検証を行った結果,提案手法が既存手法に比べてF値が上回った.さらにネットワークの局所構造が予測の精度向上に寄与することを確認した. タンパク質アミノ酸残基とRNA塩基との間の相互作用予測についてこれまでに開発してきた相互情報量を入力とする条件付き確率場による予測手法の改良を検討した.SMM (Support Matrix Machine), OS-ELM 等の機械学習手法を応用したが従来手法と同程度の予測精度となり有意な精度向上には至らなかった.今後の課題として入力となる特徴量の改良等を検討する. 前年度に開発したレーベンシュタイン距離の下で中央文字列および中心文字列の厳密解を求める整数計画法の高速化を行った.レーベンシュタイン距離は三角不等式を満たすことが知られており,入力文字列と中央文字列あるいは中心文字列との間の三角不等式を制約条件として元の整数計画問題へ追加した.文字列の集合上のいくつかの確率分布に対する計算機実験の結果は計算時間が約10分の1となることを示した. この他にDicerのRNA切断部位予測手法の開発等を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
タンパク質相互作用の予測精度を向上させることを本研究課題の目的の一つとしており,当該年度においては,宿主病原体における異なる生物種間でのタンパク質相互作用の精度向上を達成した. タンパク質アミノ酸残基とRNA塩基との間の相互作用予測については,既存の機械学習手法を適用しただけでは有意な精度向上に至らず,相互作用確率モデルおよび特徴量の検討が必要である.
|
今後の研究の推進方策 |
タンパク質の機能単位となる部分構造を多数のタンパク質立体構造に現れる類似部分から同定する課題においては,画像認識分野で開発されている SIFT などの画像の局所特徴量を利用してきたが,タンパク質残基間の距離を画像に合わせて離散化する必要があった.離散化によって高速化が図れる一方,立体構造の特徴を捉えきれていない可能性があるため,離散化の方法について検討を行う. タンパク質残基とRNA塩基との間の相互作用予測については,多重配列アラインメントからの残基と塩基との間の進化的な関係として相互情報量を用いてきたが,進化的な確率モデルに基づく特徴量を検討し予測精度の向上を目指す.
|
次年度使用額が生じた理由 |
投稿中の論文が掲載決定した場合の論文掲載料に充てるため.
|
次年度使用額の使用計画 |
出版社からの論文掲載料の請求に従い支出する予定である.
|