研究概要 |
本研究では,組合せ最適化問題の近似的解法に関する研究経験をもとに,一生物の遺伝子配列対データベースの全遺伝子配列のホモロジー探索を高速化する手法に関する研究を行っている.それを目標として、二遺伝子間の相互情報量を計算する方法に関する研究を行った。具体的には、アライメントを行う遺伝子数の絞込みに対する完全線形符号化後の相互情報量の利用可能性の評価を行った。符号理論は計算機の分野で用いられてきたため、符号のアルファベットとして基本的に2文字(0,1)が扱われてきた。これをDNAの4文字(ATGC),またはアミノ酸の20文字を扱えるように工夫した。この際、単に2値(0,1)の拡張(DNAの場合2桁、アミノ酸の場合5桁)で表現するのではなく、符号の元数をDNAやアミノ酸の文字数に合わせる。このことにより、2値の拡張符号として表現した時と異なり、各DNAやアミノ酸を計算機での表現上において対等に、または等価なものとして扱うことが可能になる。本符号を用いることにより、緩やか且つ非可逆な符号圧縮をかける。圧縮した符号を複号しても完全には元の配列にもどらないが、利用するに十分の精度があるのが非可逆な圧縮の特徴であり、「緩やかな」の意図は圧縮した状態でも、計算において圧縮前と同様の扱いができるということである。これによりデータ量の圧縮を、ひいては計算時間の短縮が可能となる。この手法に対して、GenBankの各種遺伝子の塩基配列に対して1対1対応の計算を行った。また最もよく使われるアルゴリズムであるBLASTの結果と対比させることにより、絞込みを行うための評価方法に対する検討を行うことで、本研究計画におけるデータの収集を行った。本手法が高速化に役することを、国際会議ISMBにおいて発表した。
|