研究課題/領域番号 |
19K12228
|
研究機関 | 松江工業高等専門学校 |
研究代表者 |
林田 守広 松江工業高等専門学校, 電気情報工学科, 准教授 (40402929)
|
研究分担者 |
小谷野 仁 国立研究開発法人農業・食品産業技術総合研究機構, 農業情報研究センター, 研究員 (10570989)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | 畳み込みオートエンコーダ / グラフ畳み込みニューラルネットワーク / 情報圧縮 |
研究実績の概要 |
本研究課題の目的の一つであるタンパク質立体構造の進化的保存部位の探索には多数の立体構造を必要とする.複数のタンパク質に共通して現れる類似構造は進化の過程における突然変異等によるアミノ酸残基の置換を排除していると考えられる.当該年度においてはPDB(Protein Data Bank)のIDが100dから6kzzまでの76,862のタンパク質から,立体構造におけるCα原子間の距離行列を100残基四方に分割したときの約51万の断片についてランダムに10万を抽出し学習データセットとした.学習器として,畳み込み層,最大プーリング層を交互に3層ずつと畳み込み層,アップサンプリング層を交互に3層ずつもつ畳み込みオートエンコーダを用いた.前年度に比して入力数を増大させたことで重みが0となるケースが増えたため各中間層での活性化関数をシグモイド関数に変更した.10万の断片から繰り返し1000ずつを入力し交差エントロピーを損失関数として最適化を行った.学習後のオートエンコーダにより6azzまでのタンパク質断片を13次正方行列に圧縮したところユークリッド距離が小さい断片どうしは元の構造も類似することを確認した. この他にタンパク質の機能推定を目的として生物学的ネットワークに基づいた肺がん予測手法の開発を行った.具体的には報告されているT細胞受容体シグナル伝達経路における遺伝子の相互作用からグラフ畳み込みニューラルネットワークを構成し,肺がん患者と健常者の遺伝子発現データを入力として肺がん予測モデルを作成した.680件のデータに対する交差検証では既存手法よりも精度を向上させるには至らなかった.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
畳み込みオートエンコーダのネットワーク構造の検討に進展は見られたものの,本研究課題の目的の一つである多数のタンパク質立体構造に共通に現れる類似部分構造を探索する手法の開発には至っていないため.
|
今後の研究の推進方策 |
情報圧縮においては冗長部分が縮約される.畳み込みオートエンコーダによる圧縮においても多数のタンパク質立体構造を入力とするとき類似部分が畳み込みフィルタの重みに現れると考えられる.現在までに学習した畳み込みオートエンコーダの重みを詳細に解析するとともに,タンパク質アミノ酸配列から立体構造を高精度に予測する既存のニューラルネットワークモデルも活用し,タンパク質機能に関わる部分構造を探索する. タンパク質アミノ酸配列の機能モチーフ探索を目的として,現在までに高速化を実現した中央文字列の探索手法を応用し,中心文字列を探索する手法の高速化を完成させる.ここで中央文字列は入力文字列との距離の和が最小となる文字列であり,中心文字列は入力文字列との距離の最大が最小となる文字列である. この他に前年度に実施したグラフ畳み込みニューラルネットワークを用いた遺伝子発現データからの肺がん予測手法を改良し予測精度を向上させ,肺がんに関連する遺伝子のネットワーク上での関係を解析する.
|
次年度使用額が生じた理由 |
当該年度までの研究成果発表のための旅費の支出がなくなったため,さらに現在査読中の論文が採択されたときに生じる掲載料に充てるため次年度使用額が生じた.本年度において掲載料の支出に充てるとともに,処理の迅速化のために計算機を購入する.
|