研究課題/領域番号 |
19K12228
|
研究機関 | 松江工業高等専門学校 |
研究代表者 |
林田 守広 松江工業高等専門学校, 電気情報工学科, 准教授 (40402929)
|
研究分担者 |
小谷野 仁 国立研究開発法人農業・食品産業技術総合研究機構, 農業情報研究センター, 研究員 (10570989)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | 畳み込みオートエンコーダ / 文法圧縮 / コルモゴロフ複雑性 / 整数線形計画法 |
研究実績の概要 |
タンパク質立体構造からの進化的保存部位の網羅的解析のために,立体構造を距離行列によって表現したときに,ニューラルネットワークの一種である畳み込みオートエンコーダを利用して距離行列の圧縮表現を求める方法を検討した.PDB(タンパク質構造データバンク)に蓄積されているタンパク質の長さは様々であるため固定長に分割し,入力層を100x100とし,畳み込み層,プーリング層を3層ずつ,中間層において13x13まで圧縮し,畳み込み層,アップサンプリング層を3層ずつ持つ構造を試した.計算時間と計算資源の面からPDBに登録されている構造のうち9822のタンパク質断片を対象に13x13の圧縮表現を求めた結果,ユークリッド距離が0.2以下となった組み合わせが2458となった.このうち距離が小さかった上位5つについて圧縮前の距離を計算したところ小さい値となったことを確認した. 一方でタンパク質に内在するドメインの進化的構成を解析するために,現在までに開発してきたドメイン列の集合に対する生物進化に基づいた文法圧縮の手法を利用し,異なる生物種間での類似度をコルモゴロフ複雑性に基づき提案した.ヒトやマウスを含む7つの生物種について提案手法により類似度を計算し,近隣結合法を用いて系統樹を作成した結果一般的に知られている系統樹と矛盾しないことを確認した. 細胞内の代謝経路を含む生物学的ネットワークや高分子化合物の形成過程を推定することは,その構造および機能を調べる上で有用である.現在までに開発してきた一般化Series-Parallelグラフに対する整数線形計画法による文法圧縮手法の正当性を検証するため,頂点数が22までの,頂点数と辺数が同じランダムグラフをそれぞれ100ずつ生成し,実行時間を計測した.その結果正常に動作することと平均実行時間は指数関数的に増加することを確認した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
タンパク質の進化的保存部位を網羅的に同定することが本研究課題の目的の一つであり,多数のタンパク質構造断片に対して畳み込みオートエンコーダを利用することによってそれらの圧縮表現を得ることができた.圧縮過程においては類似部分が縮約されることで全体の大きさを小さくすることができる.複数のタンパク質に共通して現れる部位は進化的に保存されており圧縮によって縮約されると考えられる.さらに異なる生物種間におけるタンパク質のドメイン構成を比較解析するための手法を開発した.
|
今後の研究の推進方策 |
畳み込みオートエンコーダを用いたタンパク質構造断片の圧縮についての研究を発展させ,圧縮に寄与する縮約部位を同定する手法を,実データに適用しながら開発を推進させる.
|
次年度使用額が生じた理由 |
当該年度において研究成果発表および情報収集のための研究会への参加を予定していたが中止となったため次年度使用額が生じた.本研究課題では計算処理に時間が掛かるため,高速化,分散処理のため計算機を購入する.
|