• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

タンパク質立体構造の進化的保存部位の解析と機能予測への応用

研究課題

研究課題/領域番号 19K12228
研究種目

基盤研究(C)

配分区分基金
応募区分一般
審査区分 小区分62010:生命、健康および医療情報学関連
研究機関松江工業高等専門学校

研究代表者

林田 守広  松江工業高等専門学校, 電気情報工学科, 教授 (40402929)

研究分担者 小谷野 仁  国立研究開発法人農業・食品産業技術総合研究機構, 農業情報研究センター, 上級研究員 (10570989)
研究期間 (年度) 2019-04-01 – 2025-03-31
研究課題ステータス 交付 (2023年度)
配分額 *注記
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2022年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2021年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2020年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2019年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
キーワードラプラス様混合モデル / 拡張ハミング距離 / レーベンシュタイン距離 / 文字列球面 / 中心文字列 / 整数線形計画法 / グラフ畳み込みニューラルネットワーク / 条件付き敵対的生成ネットワーク / 畳み込みオートエンコーダ / 情報圧縮 / 中央文字列 / 整数線形計画問題 / 文法圧縮 / コルモゴロフ複雑性 / タンパク質相互作用 / データ圧縮 / 機械学習 / タンパク質ドメイン / アルゴリズム
研究開始時の研究の概要

多くの生物種に共通して現れる類似したタンパク質のアミノ酸配列は,個体の生命の維持または子孫を残すために必要な機能が備わっていると考えられる.このように進化的に保存された領域はドメインと呼ばれデータベースに蓄積されてきた.本研究課題ではデータ圧縮の技術を応用し,膨大な数のタンパク質立体構造から進化的に保存された局所構造を同定することによって新たな機能ドメインを探索し,タンパク質の新たな相互作用を見つけることを目的とする.

研究実績の概要

タンパク質配列は20種類のアミノ酸で構成されており,1つのタンパク質は20種類の文字からなる文字列とみなせる.複数のタンパク質を収集してくれば,文字列の集合上の確率分布として表現できる.例えば以前の研究において個々のタンパク質がある活性をもつかどうかの分類問題に対しては,文字列間の距離を定義した上で正例と負例を分離するような境界を決定する手法を提案した.またいくつかの分布に分けられる場合に,n次元ユークリッド空間における混合正規分布の最尤推定のように,ラプラス様混合モデルに基づくクラスタリング手法を提案した.ラプラス様混合モデルの計算には文字列球面の大きさを得る必要があるが,その面積および文字列球の体積についての公式は知られていない.本研究では拡張ハミング距離の下での文字列球の大きさと成長速度の式を導出した.さらにレーベンシュタイン距離の下においては文字列球の大きさの成長速度の推定値を与えるとともに,全数探索により距離の小さい範囲で検証した.またある特定の確率以上で誤差がある値以下を達成する乱択アルゴリズムを提案した.当該年度においては度重なる査読者からの検討事項に答えるべく論文およびソフトウェアの修正を行い採録に至った.提案法または全数探索を用いて,拡張ハミング距離,レーベンシュタイン距離による文字列球面の大きさを出力するソフトウェアはgithub上で公開している.
この他にタンパク質二量体を予測するサポートベクトルマシンを用いた手法に,特徴量として膨大な数のタンパク質アミノ酸から学習された大規模言語モデルから得られる特徴を加えたが,F値で0.654の結果となり以前の予測精度は上回らなかった.

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

いくつかの編集距離における特定の文字列から一定の距離以内にある文字列球の大きさとその成長速度についての論文を度重なる改訂の末採録に至ったが,中央文字列,中心文字列を厳密に求解する線形計画法の高速化に関する研究が論文としてまとまっていない.

今後の研究の推進方策

文字列の集合上の確率分布が与えられたときにその分布を代表するような文字列として中央文字列あるいは中心文字列といった文字列が定義され,これら文字列の探索問題をレーベンシュタイン距離の下で整数線形計画問題として定式化できる.本年度においては制約式をいくつか導入することで高速化する手法の研究について論文としてまとめる.

報告書

(5件)
  • 2023 実施状況報告書
  • 2022 実施状況報告書
  • 2021 実施状況報告書
  • 2020 実施状況報告書
  • 2019 実施状況報告書
  • 研究成果

    (10件)

すべて 2023 2022 2021 2020 その他

すべて 雑誌論文 (2件) (うち国際共著 1件、 査読あり 2件) 学会発表 (7件) (うち国際学会 1件) 備考 (1件)

  • [雑誌論文] Volume formula and growth rates of the balls of strings under the edit distances2023

    • 著者名/発表者名
      Koyano Hitoshi、Hayashida Morihiro
    • 雑誌名

      Applied Mathematics and Computation

      巻: 458 ページ: 128202-128202

    • DOI

      10.1016/j.amc.2023.128202

    • 関連する報告書
      2023 実施状況報告書
    • 査読あり
  • [雑誌論文] Computational prediction and interpretation of both general and specific types of promoters in Escherichia coli by exploiting a stacked ensemble-learning framework2020

    • 著者名/発表者名
      Li Fuyi、Chen Jinxiang、Ge Zongyuan、Wen Ya、Yue Yanwei、Hayashida Morihiro、Baggag Abdelkader、Bensmail Halima、Song Jiangning
    • 雑誌名

      Briefings in Bioinformatics

      巻: 22 号: 2 ページ: 2126-2140

    • DOI

      10.1093/bib/bbaa049

    • 関連する報告書
      2020 実施状況報告書
    • 査読あり / 国際共著
  • [学会発表] 敵対的生成ネットワークとグラフ畳み込みニューラルネットワークを用いた遺伝子発現データからの肺がん予測2023

    • 著者名/発表者名
      川上瞬汰, 林田守広, 藤嶋教彰, ナチェルホセ
    • 学会等名
      情報処理学会第142回数理モデル化と問題解決研究会
    • 関連する報告書
      2022 実施状況報告書
  • [学会発表] 整数線形計画法による文字列の集合上の確率分布における中心文字列探索の高速化の一検討2023

    • 著者名/発表者名
      槇原このか, 林田守広, 小谷野仁, 村上享, 桑野淳一郎
    • 学会等名
      情報処理学会第142回数理モデル化と問題解決研究会
    • 関連する報告書
      2022 実施状況報告書
  • [学会発表] 畳み込みオートエンコーダを用いたタンパク質構造モチーフ探索の一検討2022

    • 著者名/発表者名
      大塚竜星, 林田守広
    • 学会等名
      情報処理学会第84回全国大会
    • 関連する報告書
      2021 実施状況報告書
  • [学会発表] 整数線形計画法による文字列の集合上の確率分布における中央文字列探索の高速化2022

    • 著者名/発表者名
      槇原このか, 林田守広, 小谷野仁
    • 学会等名
      情報処理学会第84回全国大会
    • 関連する報告書
      2021 実施状況報告書
  • [学会発表] Laplace 様混合モデルの基準化定数の計算2021

    • 著者名/発表者名
      小谷野仁, 林田守広
    • 学会等名
      情報処理学会第132回数理モデル化と問題解決研究会
    • 関連する報告書
      2020 実施状況報告書
  • [学会発表] Measuring the Similarity of Proteomes using Grammar-based Compression via Domain Combinations2020

    • 著者名/発表者名
      Hayashida Morihiro、Koyano Hitoshi、Nacher Jose
    • 学会等名
      13th International Joint Conference on Biomedical Engineering Systems and Technologies
    • 関連する報告書
      2019 実施状況報告書
    • 国際学会
  • [学会発表] 一般化Series-Parallelグラフの文法圧縮と時間計算量の実験的解析2020

    • 著者名/発表者名
      小村亘平, 林田守広, 小谷野仁, 阿久津達也
    • 学会等名
      情報処理学会第127回数理モデル化と問題解決研究会
    • 関連する報告書
      2019 実施状況報告書
  • [備考] stringsphere

    • URL

      https://github.com/morihiroh/stringsphere

    • 関連する報告書
      2023 実施状況報告書

URL: 

公開日: 2019-04-18   更新日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi