研究概要 |
近年,膨大な量のアミノ酸配列がデータベースとして整理され,インターネットを通じて世界中の研究者に公開されている.その配列から蛋白質の機能や特徴,立体構造を解明することに対する要求は大きい.中でも,ある特定の配列パターンが連続して繰り返すTandem Repeatの拡張であるコピー(コピーパターンのある規則的な繰り返し)は蛋白質の機能,構造,生成の過程などを解明する上で,非常に興味のある性質である. 本研究では,コピーに対する数理的な定義を定め,進化的計算手法に基づくコピー抽出アリゴリズムを構築した.すなわち,コピーパターンとなりうる候補の配列をスキーマとよび,このスキーマを進化的オペレーションを適用することにより,進化させていく手法である.初期のスキーマを統計的に生成し,それらに対して,直接(2つのスキーマを連結する)と突然変異(ある1つのスキーマの一部に対してあるアミノ酸を挿入,欠失,置換する)を遺伝的オペレータとして適用し,徐々にスキーマの適応度の高いスキーマを生成する.このような手続きをある一定の世代数だけ繰り返した後,そのスキーマとある類似度をもつ部分配列がコピー部分として抽出できる. 本研究で提案したアルゴリズムの評価実験として,人為的に作成したコピー部分の明らかな配列,および,データベースSWISS-PLOT,及び,PIRより取り出した11配列についてTandem Repeat部分の抽出実験を行った.実験結果から,本アルゴリズムは,配列中に含まれる複数のコピー部分を抽出していること,完全に一致する配列ではない配列が繰り返されているようなTandem Repeatをうまく抽出していることが確かめられた.しかしながら,ロ-テートと呼ばれる巡回部分配列はうまく抽出できないという特徴も確かめられた.
|