• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

タンパク質立体構造の進化的保存部位の解析と機能予測への応用

Research Project

Project/Area Number 19K12228
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 62010:Life, health and medical informatics-related
Research InstitutionMatsue National College of Technology

Principal Investigator

林田 守広  松江工業高等専門学校, 電気情報工学科, 教授 (40402929)

Co-Investigator(Kenkyū-buntansha) 小谷野 仁  国立研究開発法人農業・食品産業技術総合研究機構, 農業情報研究センター, 上級研究員 (10570989)
Project Period (FY) 2019-04-01 – 2025-03-31
Project Status Granted (Fiscal Year 2023)
Budget Amount *help
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2021: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2020: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2019: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Keywordsラプラス様混合モデル / 拡張ハミング距離 / レーベンシュタイン距離 / 文字列球面 / 中心文字列 / 整数線形計画法 / グラフ畳み込みニューラルネットワーク / 条件付き敵対的生成ネットワーク / 畳み込みオートエンコーダ / 情報圧縮 / 中央文字列 / 整数線形計画問題 / 文法圧縮 / コルモゴロフ複雑性 / タンパク質相互作用 / データ圧縮 / 機械学習 / タンパク質ドメイン / アルゴリズム
Outline of Research at the Start

多くの生物種に共通して現れる類似したタンパク質のアミノ酸配列は,個体の生命の維持または子孫を残すために必要な機能が備わっていると考えられる.このように進化的に保存された領域はドメインと呼ばれデータベースに蓄積されてきた.本研究課題ではデータ圧縮の技術を応用し,膨大な数のタンパク質立体構造から進化的に保存された局所構造を同定することによって新たな機能ドメインを探索し,タンパク質の新たな相互作用を見つけることを目的とする.

Outline of Annual Research Achievements

タンパク質配列は20種類のアミノ酸で構成されており,1つのタンパク質は20種類の文字からなる文字列とみなせる.複数のタンパク質を収集してくれば,文字列の集合上の確率分布として表現できる.例えば以前の研究において個々のタンパク質がある活性をもつかどうかの分類問題に対しては,文字列間の距離を定義した上で正例と負例を分離するような境界を決定する手法を提案した.またいくつかの分布に分けられる場合に,n次元ユークリッド空間における混合正規分布の最尤推定のように,ラプラス様混合モデルに基づくクラスタリング手法を提案した.ラプラス様混合モデルの計算には文字列球面の大きさを得る必要があるが,その面積および文字列球の体積についての公式は知られていない.本研究では拡張ハミング距離の下での文字列球の大きさと成長速度の式を導出した.さらにレーベンシュタイン距離の下においては文字列球の大きさの成長速度の推定値を与えるとともに,全数探索により距離の小さい範囲で検証した.またある特定の確率以上で誤差がある値以下を達成する乱択アルゴリズムを提案した.当該年度においては度重なる査読者からの検討事項に答えるべく論文およびソフトウェアの修正を行い採録に至った.提案法または全数探索を用いて,拡張ハミング距離,レーベンシュタイン距離による文字列球面の大きさを出力するソフトウェアはgithub上で公開している.
この他にタンパク質二量体を予測するサポートベクトルマシンを用いた手法に,特徴量として膨大な数のタンパク質アミノ酸から学習された大規模言語モデルから得られる特徴を加えたが,F値で0.654の結果となり以前の予測精度は上回らなかった.

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

いくつかの編集距離における特定の文字列から一定の距離以内にある文字列球の大きさとその成長速度についての論文を度重なる改訂の末採録に至ったが,中央文字列,中心文字列を厳密に求解する線形計画法の高速化に関する研究が論文としてまとまっていない.

Strategy for Future Research Activity

文字列の集合上の確率分布が与えられたときにその分布を代表するような文字列として中央文字列あるいは中心文字列といった文字列が定義され,これら文字列の探索問題をレーベンシュタイン距離の下で整数線形計画問題として定式化できる.本年度においては制約式をいくつか導入することで高速化する手法の研究について論文としてまとめる.

Report

(5 results)
  • 2023 Research-status Report
  • 2022 Research-status Report
  • 2021 Research-status Report
  • 2020 Research-status Report
  • 2019 Research-status Report
  • Research Products

    (10 results)

All 2023 2022 2021 2020 Other

All Journal Article (2 results) (of which Int'l Joint Research: 1 results,  Peer Reviewed: 2 results) Presentation (7 results) (of which Int'l Joint Research: 1 results) Remarks (1 results)

  • [Journal Article] Volume formula and growth rates of the balls of strings under the edit distances2023

    • Author(s)
      Koyano Hitoshi、Hayashida Morihiro
    • Journal Title

      Applied Mathematics and Computation

      Volume: 458 Pages: 128202-128202

    • DOI

      10.1016/j.amc.2023.128202

    • Related Report
      2023 Research-status Report
    • Peer Reviewed
  • [Journal Article] Computational prediction and interpretation of both general and specific types of promoters in Escherichia coli by exploiting a stacked ensemble-learning framework2020

    • Author(s)
      Li Fuyi、Chen Jinxiang、Ge Zongyuan、Wen Ya、Yue Yanwei、Hayashida Morihiro、Baggag Abdelkader、Bensmail Halima、Song Jiangning
    • Journal Title

      Briefings in Bioinformatics

      Volume: 22 Issue: 2 Pages: 2126-2140

    • DOI

      10.1093/bib/bbaa049

    • Related Report
      2020 Research-status Report
    • Peer Reviewed / Int'l Joint Research
  • [Presentation] 敵対的生成ネットワークとグラフ畳み込みニューラルネットワークを用いた遺伝子発現データからの肺がん予測2023

    • Author(s)
      川上瞬汰, 林田守広, 藤嶋教彰, ナチェルホセ
    • Organizer
      情報処理学会第142回数理モデル化と問題解決研究会
    • Related Report
      2022 Research-status Report
  • [Presentation] 整数線形計画法による文字列の集合上の確率分布における中心文字列探索の高速化の一検討2023

    • Author(s)
      槇原このか, 林田守広, 小谷野仁, 村上享, 桑野淳一郎
    • Organizer
      情報処理学会第142回数理モデル化と問題解決研究会
    • Related Report
      2022 Research-status Report
  • [Presentation] 畳み込みオートエンコーダを用いたタンパク質構造モチーフ探索の一検討2022

    • Author(s)
      大塚竜星, 林田守広
    • Organizer
      情報処理学会第84回全国大会
    • Related Report
      2021 Research-status Report
  • [Presentation] 整数線形計画法による文字列の集合上の確率分布における中央文字列探索の高速化2022

    • Author(s)
      槇原このか, 林田守広, 小谷野仁
    • Organizer
      情報処理学会第84回全国大会
    • Related Report
      2021 Research-status Report
  • [Presentation] Laplace 様混合モデルの基準化定数の計算2021

    • Author(s)
      小谷野仁, 林田守広
    • Organizer
      情報処理学会第132回数理モデル化と問題解決研究会
    • Related Report
      2020 Research-status Report
  • [Presentation] Measuring the Similarity of Proteomes using Grammar-based Compression via Domain Combinations2020

    • Author(s)
      Hayashida Morihiro、Koyano Hitoshi、Nacher Jose
    • Organizer
      13th International Joint Conference on Biomedical Engineering Systems and Technologies
    • Related Report
      2019 Research-status Report
    • Int'l Joint Research
  • [Presentation] 一般化Series-Parallelグラフの文法圧縮と時間計算量の実験的解析2020

    • Author(s)
      小村亘平, 林田守広, 小谷野仁, 阿久津達也
    • Organizer
      情報処理学会第127回数理モデル化と問題解決研究会
    • Related Report
      2019 Research-status Report
  • [Remarks] stringsphere

    • URL

      https://github.com/morihiroh/stringsphere

    • Related Report
      2023 Research-status Report

URL: 

Published: 2019-04-18   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi