研究課題/領域番号 |
19K12228
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分62010:生命、健康および医療情報学関連
|
研究機関 | 松江工業高等専門学校 |
研究代表者 |
林田 守広 松江工業高等専門学校, 電気情報工学科, 教授 (40402929)
|
研究分担者 |
小谷野 仁 国立研究開発法人農業・食品産業技術総合研究機構, 農業情報研究センター, 上級研究員 (10570989)
|
研究期間 (年度) |
2019-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2022年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2021年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2020年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2019年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
|
キーワード | 中心文字列 / 整数線形計画法 / グラフ畳み込みニューラルネットワーク / 条件付き敵対的生成ネットワーク / 畳み込みオートエンコーダ / 情報圧縮 / 中央文字列 / 整数線形計画問題 / レーベンシュタイン距離 / 文字列球面 / 文法圧縮 / コルモゴロフ複雑性 / タンパク質相互作用 / データ圧縮 / 機械学習 / タンパク質ドメイン / アルゴリズム |
研究開始時の研究の概要 |
多くの生物種に共通して現れる類似したタンパク質のアミノ酸配列は,個体の生命の維持または子孫を残すために必要な機能が備わっていると考えられる.このように進化的に保存された領域はドメインと呼ばれデータベースに蓄積されてきた.本研究課題ではデータ圧縮の技術を応用し,膨大な数のタンパク質立体構造から進化的に保存された局所構造を同定することによって新たな機能ドメインを探索し,タンパク質の新たな相互作用を見つけることを目的とする.
|
研究実績の概要 |
本研究課題の目的の一つであるタンパク質の進化的保存部位の探索のために多数のタンパク質アミノ酸配列からの特徴的な構造の抽出が有用となる.当該年度においては中心文字列と呼ばれる,入力文字列の集合のうち文字列間の距離の最大値が最小となる文字列を見つける問題について厳密解を探索する手法の高速化に取り組んだ.文字列間の距離として置換,挿入,削除の編集コストに基づくレーベンシュタイン距離を扱う.文字列間の距離の和を最小にする中央文字列を探索する手法については既存の手法よりも高速な手法を開発しており,同じ考え方を中心文字列探索にも適用した.厳密解法はともに整数線形計画問題として定式化し,高速化のために制約条件式を追加することで解候補を削減する方策を取った.文字列間の距離は編集される文字が少ない方が小さくなるので文字列の左端と右端の文字が対応するような極端な解は実現しない可能性が高い.そのような中心文字列とはなり得ない解を除いた.入力文字列2本のときの計算機実験による実行時間の結果は,長さ2,3のときは既存手法とほぼ同等であるが分散が有意に小さく,長さ4では実行時間が短くなった. さらに前年度に引き続き開発しているグラフ畳み込みニューラルネットワークを用いた遺伝子発現データからの肺がん予測手法について,条件付き敵対的生成ネットワークを用いた学習データの調整を検討した.計算機実験の結果は学習データをうまくモデル化するようなニューラルネットワークの構築には至らなかったことが示唆された.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
複数のタンパク質アミノ酸配列に共通に現れる類似部分構造を探索する手法の高速化に進展は見られたものの,タンパク質立体構造に対する類似部分構造を探索する手法の開発には至っていないため.
|
今後の研究の推進方策 |
文字列球と呼ばれるある特定の文字列から一定の距離以内に含まれる文字列の数に関する論文が査読改訂中であり掲載を目指す.また一定の結果が得られている中央文字列,中心文字列を探索する厳密解法の高速化の研究を論文にまとめる.さらにグラフ畳み込みニューラルネットワークを用いた肺がん予測手法の精度を改善し論文としてまとめる.
|