研究課題/領域番号 |
19K12228
|
研究機関 | 松江工業高等専門学校 |
研究代表者 |
林田 守広 松江工業高等専門学校, 電気情報工学科, 教授 (40402929)
|
研究分担者 |
小谷野 仁 国立研究開発法人農業・食品産業技術総合研究機構, 農業情報研究センター, 上級研究員 (10570989)
|
研究期間 (年度) |
2019-04-01 – 2025-03-31
|
キーワード | ラプラス様混合モデル / 拡張ハミング距離 / レーベンシュタイン距離 / 文字列球面 |
研究実績の概要 |
タンパク質配列は20種類のアミノ酸で構成されており,1つのタンパク質は20種類の文字からなる文字列とみなせる.複数のタンパク質を収集してくれば,文字列の集合上の確率分布として表現できる.例えば以前の研究において個々のタンパク質がある活性をもつかどうかの分類問題に対しては,文字列間の距離を定義した上で正例と負例を分離するような境界を決定する手法を提案した.またいくつかの分布に分けられる場合に,n次元ユークリッド空間における混合正規分布の最尤推定のように,ラプラス様混合モデルに基づくクラスタリング手法を提案した.ラプラス様混合モデルの計算には文字列球面の大きさを得る必要があるが,その面積および文字列球の体積についての公式は知られていない.本研究では拡張ハミング距離の下での文字列球の大きさと成長速度の式を導出した.さらにレーベンシュタイン距離の下においては文字列球の大きさの成長速度の推定値を与えるとともに,全数探索により距離の小さい範囲で検証した.またある特定の確率以上で誤差がある値以下を達成する乱択アルゴリズムを提案した.当該年度においては度重なる査読者からの検討事項に答えるべく論文およびソフトウェアの修正を行い採録に至った.提案法または全数探索を用いて,拡張ハミング距離,レーベンシュタイン距離による文字列球面の大きさを出力するソフトウェアはgithub上で公開している. この他にタンパク質二量体を予測するサポートベクトルマシンを用いた手法に,特徴量として膨大な数のタンパク質アミノ酸から学習された大規模言語モデルから得られる特徴を加えたが,F値で0.654の結果となり以前の予測精度は上回らなかった.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
いくつかの編集距離における特定の文字列から一定の距離以内にある文字列球の大きさとその成長速度についての論文を度重なる改訂の末採録に至ったが,中央文字列,中心文字列を厳密に求解する線形計画法の高速化に関する研究が論文としてまとまっていない.
|
今後の研究の推進方策 |
文字列の集合上の確率分布が与えられたときにその分布を代表するような文字列として中央文字列あるいは中心文字列といった文字列が定義され,これら文字列の探索問題をレーベンシュタイン距離の下で整数線形計画問題として定式化できる.本年度においては制約式をいくつか導入することで高速化する手法の研究について論文としてまとめる.
|
次年度使用額が生じた理由 |
中央文字列探索の高速化に関する研究をまとめた論文の投稿を予定しており,採録された場合に掲載料が必要となるため.
|