2020 Fiscal Year Research-status Report
タンパク質立体構造の進化的保存部位の解析と機能予測への応用
Project/Area Number |
19K12228
|
Research Institution | Matsue National College of Technology |
Principal Investigator |
林田 守広 松江工業高等専門学校, 電気情報工学科, 准教授 (40402929)
|
Co-Investigator(Kenkyū-buntansha) |
小谷野 仁 国立研究開発法人農業・食品産業技術総合研究機構, 農業情報研究センター, 研究員 (10570989)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 中央文字列 / 整数線形計画問題 / レーベンシュタイン距離 / 文字列球面 |
Outline of Annual Research Achievements |
タンパク質の進化的保存部位における特徴的なアミノ酸配列の同定を目的として,以前に開発した中央文字列を厳密に求める手法の高速化を行った.個々のアミノ酸配列は文字列として表現でき,同じ機能を示す複数のタンパク質アミノ酸配列が与えられたとき,中央文字列はそれらを代表する文字列とみることができる.2つの文字列の間の距離と,文字列の集合上の確率分布が与えられたとき,中央文字列は個々の文字列との距離の和の期待値を最小にする文字列として定義される.以前に開発した厳密解法では文字列間の距離として,挿入,削除,置換の編集にかかる総コストを最小にするレーベンシュタイン距離を用い,中央文字列を求める問題を整数線形計画問題として定式化した.求める中央文字列と個々の文字列とのレーベンシュタイン距離の計算に,動的計画法によるアルゴリズムに基づいた制約式の設計を行った.当該年度においては,求める中央文字列と入力文字列との間の各文字の対応に着目し整数線形計画問題の改良を試みた.レーベンシュタイン距離の下では,文字列の先頭ともう片方の文字列の末尾が対応する可能性は,多くの場合低くなると考えられる.従って対応し得ない位置の組み合わせが候補から除外されるように,整数線形計画問題に制約式を追加した.乱数を使って4種類の文字からなる文字列を生成し,中央文字列を求める時間を計測した結果,文字列が8本以上かつ長さが2以上の入力データにおいて改良した手法の計算時間が短くなった.また7本以下でも長さが長いほど改良手法が優れていた. また中心となる文字列からのレーベンシュタイン距離が一定となる文字列球面上の文字列の個数について数理的な解析と計算機実験を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
当初の計画ではタンパク質立体構造を圧縮し,圧縮に寄与する縮約部位を同定する手法を確立する予定であったが,以前に開発した畳み込みオートエンコーダのネットワーク構造の検討が当該年度において十分に進んでいるとは言えないため.
|
Strategy for Future Research Activity |
畳み込みオートエンコーダのネットワーク構造にアテンション機構を導入し効率良く縮約部位を同定する手法を,多数のタンパク質立体構造データに適用しながら開発を推進させる.またタンパク質相互作用ネットワークなどの生物学的ネットワークにグラフニューラルネットワークを応用することで,タンパク質複合体予測などの精度改善を試みる.
|
Causes of Carryover |
当該年度において研究成果発表を行った研究会がオンラインとなり旅費の支出がなくなったため,また現在投稿中の論文が採択されたときの掲載料にあてるため次年度使用額が生じた.計算処理の短縮のために計算機を購入する.
|
Research Products
(2 results)