本研究の目的は、問題クラスとしては難しいがデータによっては簡単に解ける問題に対し、データ依存の問題の複雑さの指標を提案し、その指標により単純な問題をより効率的に解くアルゴリズムを考案することである。 本年度は、「シーケンスデータに関する問題のデータ依存の複雑さ」の研究を重点的に行った。1つの文字列内には複数の連続的な繰り返しが存在する。DNAシーケンスなどに存在するそのような連続的な繰り返しはタンデムリピートと呼ばれ、遺伝的疾患に関係があることが知られている。1つの文字列の中に繰り返しは多く存在し、それらは互いに重なっていたり入れ子になっていたりする。入れ子になっているか、互いに重なっていない複数のタンデムリピートは、1つの「繰返し表現文字列」として表現できる。どのタンデムリピートを表現するかにより、同じ文字列が複数の(サイズの異なる)繰返し表現文字列で表現できる。その最小サイズを、その文字列の繰返し構造の複雑さを表す指標として提案した。この指標において複雑度の低い文字列は、連続する繰返し構造という観点において、規則正しいことを意味する。 我々は、与えられた文字列に対する最小繰返し表現文字列を求める効率的なアルゴリズムを考案し、実際の複数の生物種のDNAシーケンスの繰返し構造の複雑度を計算した。その結果、元々の文字列長で正規化した複雑度には生物種に固有の値があり、またタンデムリピートの密度が同じでも正規化複雑度が異なる生物種が存在することがわかった。
|