2011 Fiscal Year Annual Research Report
Project/Area Number |
21500128
|
Research Institution | Hokkaido University |
Principal Investigator |
中村 篤祥 北海道大学, 大学院・情報科学研究科, 准教授 (50344487)
|
Co-Investigator(Kenkyū-buntansha) |
工藤 峰一 北海道大学, 大学院・情報科学研究科, 教授 (60205101)
外山 淳 北海道大学, 大学院・情報科学研究科, 助教 (60197960)
|
Keywords | データ依存 / 問題の複雑さ / 機械学習 / アルゴリズム / シーケンス / 超矩形 |
Research Abstract |
本研究の目的は、問題クラスとしては難しいがデータによっては簡単に解ける問題に対し、データ依存の問題の複雑さの指標を提案し、その指標により単純な問題をより効率的に解くアルゴリズムを考案することである。 本年度も昨年度に引き続き、「シーケンスデータに関する問題のデータ依存の複雑さ」の研究を重点的に行った。ただし、今年度は昨年度と異なり、1つの文字列内に散在する繰り返し構造に着目した。DNAシーケンスなどに散在する繰り返しはレトロトランスポゾンの転移によりできたものと考えられており、生物の進化と密接な関係がある。散在する繰り返しの近似パターンを列挙する問題のデータ依存の複雑さに関して考察を行った。新たな複雑さ指標による特徴付けはできなかったが、局所最適な出現が頻出する近似パターンの列挙を、ギャップ制約の下で0(n^2)のメモリで列挙するアルゴリズムを開発した。ただし、nはシーケンス全体の長さとする。さらに、実際のヒトゲノムから長さが100以上で5000万塩基あたり100回以上(ギャップ1の制約下で)局所最適出現するパターンの列挙に成功した。 また、多次元実数空間上の与えられた正負ラベル付きサンプルに対し、負例を含まない軸に平行な超矩形で囲まれる正例の集合を列挙する問題において、初年度に開発したアルゴリズムを改良し、高速化を実現した。極大頻出アイテムセットを列挙するアルゴリズムLCMmaxをこの問題用に単純に変換したアルゴリズムより、データによっては10倍程度高速化が実現された。また、このアルゴリズムを利用した超矩形による貪欲被覆アルゴリズムに関しても高速化が実現された。超矩形による貪欲被覆はクラス分類やデータマイニングで有用であり、計算量の問題があって現在使われていないが、本研究の成果による高速化により実用化に一歩近づいたといえる。
|
Research Products
(6 results)