2012 年度実績報告書

配列アラインメントを高速に求めるための前処理に関する研究

研究課題

研究課題/領域番号	22500001
研究機関	東北大学
研究代表者	酒井義文東北大学, (連合)農学研究科(研究院), 准教授 (10277361)
研究期間 (年度)	2010-04-01 – 2013-03-31
キーワード	アルゴリズム / 文字列比較
研究概要	run長符号化された２つの文字列の最長共通部分列を求める問題に関して、この問題を解くこれまでに知られたアルゴリズムよりも高速なアルゴリズムを提案した。２つの文字列の長さがそれぞれM、Nであり、runの個数がそれぞれm、nであるとき、従来のアルゴリズムでは漸近的にO(mn loglog(max(m, n))時間で動作するものとO(mn min(M/m, N/n))時間で動作するものが知られていた。提案したアルゴリズムは、この漸近的な動作時間をO(mn loglog min(m, n, M/m, N/n, X))に改良した。ただし、Xは２つの文字列からのrunからなる対におけるrunの長さの差の平均であり、runの長さが均一であるほど小さな値をとる。１つの文字列における特定の文字の分布に関して、各長さの区間においてその特定文字が現れる最大の回数を索引として求める単純なアルゴリズムを提案した。文字列の長さがnであるとき、複雑な再帰手法に基づいて何度も畳み込み計算をすることでこの索引を構築するO(n^2/log n)時間アルゴリズムがこれまでに知られていた。これに対し、提案したアルゴリズムは漸近的に同じ実行時間で再帰を用いることなしに１回の畳み込み計算により索引を構築する。また、このアルゴリズムを用いると、文字列に現れる特定文字の個数がkであるとき、O(n + \min(k^2/log k, (n - k)^2/log(n - k))時間で索引を構築可能である。また、特定文字一つ一つに任意の自然数重みが与えられている場合にO(n + k^2/log k)時間、負の値を含む任意の整数重みが与えられている場合にO(n + k loglog n)時間で索引を構築するアルゴリズムもそれぞれ提案した。これらのアルゴリズムは文字列に特定文字が疎にしか現れない場合に非常に高速に動作する。
現在までの達成度 (区分)	理由 24年度が最終年度であるため、記入しない。
今後の研究の推進方策	24年度が最終年度であるため、記入しない。

研究成果
(3件)

すべて 2013 2012

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (2件)

[雑誌論文] Computing the longest common subsequence of two run-length encoded strings2012
- 著者名/発表者名
  Yoshifumi Sakai
- 雑誌名
  
  Lecture Notes in Computer Science, Algorithms and Computation
  
  巻: 7676 ページ: 197-206
- 査読あり
[学会発表] 部分文字列最大密度索引2013
- 著者名/発表者名
  酒井義文
- 学会等名
  2012年度冬のLAシンポジウム
- 発表場所
  京都府京都市京都大学
- 年月日
  20130128-20130130
[学会発表] run長符号化文字列の最長共通部分列計算2012
- 著者名/発表者名
  酒井義文
- 学会等名
  2012年度夏のLAシンポジウム
- 発表場所
  京都府宮津市宮津ロイヤルホテル
- 年月日
  20120717-20120719

2012 年度 実績報告書

配列アラインメントを高速に求めるための前処理に関する研究

研究代表者

酒井 義文 東北大学, (連合)農学研究科(研究院), 准教授 (10277361)

理由

研究成果

[雑誌論文] Computing the longest common subsequence of two run-length encoded strings2012

著者名/発表者名

雑誌名

[学会発表] 部分文字列最大密度索引2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] run長符号化文字列の最長共通部分列計算2012

著者名/発表者名

学会等名

発表場所

年月日

2012 年度実績報告書

酒井義文東北大学, (連合)農学研究科(研究院), 准教授 (10277361)