研究概要 |
生物学的配列データからのパターン抽出問題に関して,生物種間の系統情報を表す系統樹の活用が非常に有効であることが,様々な事例研究から,明らかとなってきている.そこで,本研究では,研究対象問題である「正例文字列にマッチし,負例文字列にはマッチしないパターンの探索問題」を,系統樹情報を利用した問題に限定して研究を展開し,成果を得ることに成功した.具体的には,次の進展があった. 1.与えられた系統樹の情報を制約条件として,正例文宇列集合のみからミスマッチパターンを探索するダイナミック・プログラミング・アルゴリズムが提案されていた[Blanchetteら2002].そこで,本研究では,まず,この問題を入力文字列が正例文字列集合に加えて負例文字列集合も与えられる場合に拡張した問題を定式化し,そしてBlanchetteらのアルゴリズムを拡張することにより,新しい問題を解くアルゴリズムを構築した. 2.1.で構築したアルゴリズムを,相同配列からなる集合に対して,選択的スプライシングをする遺伝子の配列を正例とラベルし,そうではない配列を負例とラベルして,選択的スプライシングの制御に関与するサイトの予測問題に応用した. 3.その結果,ヒトの遺伝子に関しては,選択的エキソンに隣接するイントロン配列に選択的スプライシングの制御配列は存在するという説得力のある予測結果が得られた. 今後の第一の研究課題は,モチーフ・モデルを「ミスマッチパターン」から最もポピュラーな「重み付き行列」に変更しても,効率よく正負例文字列集合からのパターン探索問題を解く系統樹の情報を利用したアルゴリズムを構築・解析することである.そして,第二の研究課題は,ユーザーにパターン・モデル選択の負担を負わせないようにするために,ミスマッチ・パターンと重み付き行列の中から最適パターンを効率よく見つけだすアルゴルズムを構築・解析することである.
|