平成19年度は計画に従い、L-systemで作成した木構造などをEulerツアーで文字列に変換し、それに対して文字列圧縮アルゴリズムを適用し、生成規則の再抽出を試みるという計算機実験を行った。ただし、当初予定していたSEQUITURではなく、LZ78という圧縮アルゴリズムを適用した。その結果、もとの生成規則とは必ずしも一致しないが、ある程度、コンパクトな生成規則を得ることができた。また、Eulerツアーに変換された文字列のみから、もとの生成規則と一致する規則を得ることができるかについて理論的研究を行ったが、最終的な結果を得るには至らなかった。よって、より多くの計算機実験を行い、変換、圧縮方式の改良を試み、さらに、理論的に意味ある結果を得ることが平成20年度以降の課題として残されている。 一方、当初の計画とは多少異なるが、データ圧縮の生命情報解析への応用として、タンパク質の立体構造をアミノ酸間の距離情報(距離行列)をもとに2次元画像データに変換し、それに対して、画像圧縮アルゴリズムを適用する手法を開発した。さらに、その手法を用いてタンパク質立体構造の類似性を測る方法を開発した。従来から似た手法はあったが、従来手法では画像データを離散化し最終的には文字列圧縮アルゴリズムを適用している点が異なる。そして、実際のタンパク質立体構造データを用いたクラスタリングに適用することにより従来手法との比較を行ったところ、より良い結果を得ることができ、提案手法の有効性を示すことができた。
|