• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2023 Fiscal Year Research-status Report

タンパク質立体構造の進化的保存部位の解析と機能予測への応用

Research Project

Project/Area Number 19K12228
Research InstitutionMatsue National College of Technology

Principal Investigator

林田 守広  松江工業高等専門学校, 電気情報工学科, 教授 (40402929)

Co-Investigator(Kenkyū-buntansha) 小谷野 仁  国立研究開発法人農業・食品産業技術総合研究機構, 農業情報研究センター, 上級研究員 (10570989)
Project Period (FY) 2019-04-01 – 2025-03-31
Keywordsラプラス様混合モデル / 拡張ハミング距離 / レーベンシュタイン距離 / 文字列球面
Outline of Annual Research Achievements

タンパク質配列は20種類のアミノ酸で構成されており,1つのタンパク質は20種類の文字からなる文字列とみなせる.複数のタンパク質を収集してくれば,文字列の集合上の確率分布として表現できる.例えば以前の研究において個々のタンパク質がある活性をもつかどうかの分類問題に対しては,文字列間の距離を定義した上で正例と負例を分離するような境界を決定する手法を提案した.またいくつかの分布に分けられる場合に,n次元ユークリッド空間における混合正規分布の最尤推定のように,ラプラス様混合モデルに基づくクラスタリング手法を提案した.ラプラス様混合モデルの計算には文字列球面の大きさを得る必要があるが,その面積および文字列球の体積についての公式は知られていない.本研究では拡張ハミング距離の下での文字列球の大きさと成長速度の式を導出した.さらにレーベンシュタイン距離の下においては文字列球の大きさの成長速度の推定値を与えるとともに,全数探索により距離の小さい範囲で検証した.またある特定の確率以上で誤差がある値以下を達成する乱択アルゴリズムを提案した.当該年度においては度重なる査読者からの検討事項に答えるべく論文およびソフトウェアの修正を行い採録に至った.提案法または全数探索を用いて,拡張ハミング距離,レーベンシュタイン距離による文字列球面の大きさを出力するソフトウェアはgithub上で公開している.
この他にタンパク質二量体を予測するサポートベクトルマシンを用いた手法に,特徴量として膨大な数のタンパク質アミノ酸から学習された大規模言語モデルから得られる特徴を加えたが,F値で0.654の結果となり以前の予測精度は上回らなかった.

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

いくつかの編集距離における特定の文字列から一定の距離以内にある文字列球の大きさとその成長速度についての論文を度重なる改訂の末採録に至ったが,中央文字列,中心文字列を厳密に求解する線形計画法の高速化に関する研究が論文としてまとまっていない.

Strategy for Future Research Activity

文字列の集合上の確率分布が与えられたときにその分布を代表するような文字列として中央文字列あるいは中心文字列といった文字列が定義され,これら文字列の探索問題をレーベンシュタイン距離の下で整数線形計画問題として定式化できる.本年度においては制約式をいくつか導入することで高速化する手法の研究について論文としてまとめる.

Causes of Carryover

中央文字列探索の高速化に関する研究をまとめた論文の投稿を予定しており,採録された場合に掲載料が必要となるため.

  • Research Products

    (2 results)

All 2023 Other

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Remarks (1 results)

  • [Journal Article] Volume formula and growth rates of the balls of strings under the edit distances2023

    • Author(s)
      Koyano Hitoshi、Hayashida Morihiro
    • Journal Title

      Applied Mathematics and Computation

      Volume: 458 Pages: 128202~128202

    • DOI

      10.1016/j.amc.2023.128202

    • Peer Reviewed
  • [Remarks] stringsphere

    • URL

      https://github.com/morihiroh/stringsphere

URL: 

Published: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi