2019 Fiscal Year Annual Research Report
Development of protein function prediction methods with global substructures and interaction stochastic models
Project/Area Number |
16K00392
|
Research Institution | Matsue National College of Technology |
Principal Investigator |
林田 守広 松江工業高等専門学校, 電気情報工学科, 准教授 (40402929)
|
Co-Investigator(Kenkyū-buntansha) |
小谷野 仁 国立研究開発法人農業・食品産業技術総合研究機構, 農業情報研究センター, 研究員 (10570989)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | 文法圧縮 / ラプラス様混合確率分布 / EMアルゴリズム / 畳み込みニューラルネットワーク |
Outline of Annual Research Achievements |
個々の生物種におけるタンパク質ドメインの進化的構成を解析するため,現在までに突然変異および遺伝子重複に基づく文法圧縮による手法を開発し,7つの生物種に対して提案手法を適用していた.当該年度においては生物種の数を増やし,UniProtデータベースに含まれる生物種のうち,真核生物73種,細菌328種,古細菌14種にそれぞれ適用した.その結果,細菌,古細菌では大きく圧縮されたものはほとんどなく,真核生物ではばらつきがあり近縁種であっても圧縮率に違いが出た.今後の研究において詳細に検討する. タンパク質アミノ酸配列または核酸塩基配列において,ある特定の機能を示す部分配列を確率モデル化する手法に関する研究を論文にまとめた.まず文字列の集合上にラプラス様確率分布を定義した.中心となる文字列がパラメータとして与えられ,この文字列との距離が大きくなる程,確率が小さくなるとした.このとき,ある特定の文字列の集合が与えられたもとで,これらを生起させるラプラス様混合確率分布をEM(期待値最大化)アルゴリズムを使って推定する手法を開発した.Rfamデータベースから取得した6つの配列ファミリー,計289本のRNAに混合数を6として提案手法を適用し6つの中心となる文字列を推定するとともに有効性を確認した. この他にタンパク質相互作用ネットワークと遺伝子発現プロファイルを統合し畳み込みニューラルネットワークを利用して肺がんを予測する手法に関する研究を論文にまとめた.
|
Research Products
(2 results)