タンパク質立体構造の進化的保存部位の解析と機能予測への応用
Project/Area Number |
19K12228
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 62010:Life, health and medical informatics-related
|
Research Institution | Matsue National College of Technology |
Principal Investigator |
林田 守広 松江工業高等専門学校, 電気情報工学科, 教授 (40402929)
|
Co-Investigator(Kenkyū-buntansha) |
小谷野 仁 国立研究開発法人農業・食品産業技術総合研究機構, 農業情報研究センター, 上級研究員 (10570989)
|
Project Period (FY) |
2019-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2021: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2020: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2019: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
|
Keywords | ラプラス様混合モデル / 拡張ハミング距離 / レーベンシュタイン距離 / 文字列球面 / 中心文字列 / 整数線形計画法 / グラフ畳み込みニューラルネットワーク / 条件付き敵対的生成ネットワーク / 畳み込みオートエンコーダ / 情報圧縮 / 中央文字列 / 整数線形計画問題 / 文法圧縮 / コルモゴロフ複雑性 / タンパク質相互作用 / データ圧縮 / 機械学習 / タンパク質ドメイン / アルゴリズム |
Outline of Research at the Start |
多くの生物種に共通して現れる類似したタンパク質のアミノ酸配列は,個体の生命の維持または子孫を残すために必要な機能が備わっていると考えられる.このように進化的に保存された領域はドメインと呼ばれデータベースに蓄積されてきた.本研究課題ではデータ圧縮の技術を応用し,膨大な数のタンパク質立体構造から進化的に保存された局所構造を同定することによって新たな機能ドメインを探索し,タンパク質の新たな相互作用を見つけることを目的とする.
|
Outline of Annual Research Achievements |
タンパク質配列は20種類のアミノ酸で構成されており,1つのタンパク質は20種類の文字からなる文字列とみなせる.複数のタンパク質を収集してくれば,文字列の集合上の確率分布として表現できる.例えば以前の研究において個々のタンパク質がある活性をもつかどうかの分類問題に対しては,文字列間の距離を定義した上で正例と負例を分離するような境界を決定する手法を提案した.またいくつかの分布に分けられる場合に,n次元ユークリッド空間における混合正規分布の最尤推定のように,ラプラス様混合モデルに基づくクラスタリング手法を提案した.ラプラス様混合モデルの計算には文字列球面の大きさを得る必要があるが,その面積および文字列球の体積についての公式は知られていない.本研究では拡張ハミング距離の下での文字列球の大きさと成長速度の式を導出した.さらにレーベンシュタイン距離の下においては文字列球の大きさの成長速度の推定値を与えるとともに,全数探索により距離の小さい範囲で検証した.またある特定の確率以上で誤差がある値以下を達成する乱択アルゴリズムを提案した.当該年度においては度重なる査読者からの検討事項に答えるべく論文およびソフトウェアの修正を行い採録に至った.提案法または全数探索を用いて,拡張ハミング距離,レーベンシュタイン距離による文字列球面の大きさを出力するソフトウェアはgithub上で公開している. この他にタンパク質二量体を予測するサポートベクトルマシンを用いた手法に,特徴量として膨大な数のタンパク質アミノ酸から学習された大規模言語モデルから得られる特徴を加えたが,F値で0.654の結果となり以前の予測精度は上回らなかった.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
いくつかの編集距離における特定の文字列から一定の距離以内にある文字列球の大きさとその成長速度についての論文を度重なる改訂の末採録に至ったが,中央文字列,中心文字列を厳密に求解する線形計画法の高速化に関する研究が論文としてまとまっていない.
|
Strategy for Future Research Activity |
文字列の集合上の確率分布が与えられたときにその分布を代表するような文字列として中央文字列あるいは中心文字列といった文字列が定義され,これら文字列の探索問題をレーベンシュタイン距離の下で整数線形計画問題として定式化できる.本年度においては制約式をいくつか導入することで高速化する手法の研究について論文としてまとめる.
|
Report
(5 results)
Research Products
(10 results)