研究課題/領域番号 |
18J10967
|
研究機関 | 九州大学 |
研究代表者 |
藤重 雄大 九州大学, システム情報科学府, 特別研究員(DC2)
|
研究期間 (年度) |
2018-04-25 – 2020-03-31
|
キーワード | データ構造 / アルゴリズム / 文字列処理 |
研究実績の概要 |
文字列の新たな組合せ的性質の究明および,それを用いたアルゴリズムの開発を目標に,文字列データ構造に着目して研究を行った.本年度は特に,接尾辞木およびDAWGに着目して研究を行い三つの成果をあげた. 一つ目の成果は新たなデータ構造の提案である.よく知られる文字列索引構造にDAWGがある.DAWGは入力文字列長に線形な領域の全文索引である.一般に入力文字列に対し,探索するパタン長は短い.そこで,探索をできるパタン長に制約をかけることで,省領域な索引構造を提案した.また時間・領域共に効率的な構築手法も提案した.この内容はSPIRE2018に採択され,ペルーにて発表も行った. 二つ目の成果は,generic word の列挙アルゴリズムの提案である.文字列集合に対して,複数の文字列に共通して出現する極大な部分文字列をgeneric wordという.単にgeneric wordを高速に計算することは容易であるが,パタン文字列が与えられた際にそれを部分文字列として含むgeneric wordの列挙アルゴリズムにおいて効率的な解法はまだ見つかっていなかった.そこでgeneric wordの持つ組合せ的性質を解明し,その性質と接尾辞木のもつ組合せ的性質を組み合わせることで従来手法より省領域かつ高速に列挙する手法を提案した.この成果は国際会議への投稿のため現在執筆中である. 三つ目の成果は,接尾辞木の頂点数に関する性質の解明である.接尾辞木の満たす性質として Golnaz らは長さ n の文字列に対する接尾辞木の深さ d における頂点数の最大値 v(n,d) に対する上界と下界を与えた.しかし下界と上界の間に乖離があった.そこで下界とする一致する厳密な上界を示した.この研究はヘルシンキ大学に留学した際の共同研究である.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
初年度に予定していたDAWGの逆問題については,まだ成果が出ていないが,一方で2年度目に予定していた generic wordの効率的な列挙アルゴリズムに対して十分な成果が出た.また,ヘルシンキ大学への留学の際に5週間という短期間でありながら成果をあげ,論文誌への投稿を目指して準備を進めている. 当初の計画とは順番が前後してはいるが,研究の進捗としては当初の計画通りもしくは当初の計画以上である.
|
今後の研究の推進方策 |
まず,初年度に計画していたDAWGの逆問題に取り組む.接尾辞木や接尾辞配列の逆問題に関してはすでにすでに研究されており,その結果を用いて多くの理論的な研究がなされている.DAWGと接尾辞木の関係に関してはすでに研究を行い発表済みであるため,その知見を生かして問題に取り組んでいく. また,当初の計画通りスクエア予想に取り組む.スクエア予想の証明にDAWGをはじめとするデータ構造と辞書式順序を用いた新たな知見の発見が重要である.これらの研究の後に,これまでの研究課程における問題点を洗い出し,その解決に挑む.また,これまでに学習してきた知見を元に文字列情報学における新たな課題を発見しその問題に取り組む.特に辞書式順序に関する研究は,近年活発に考えられるようになったため多くの課題や未発見の性質が残っていると考えられているため,率先して最先端の研究に取り組んでいく.
|