研究課題/領域番号 |
21K17817
|
研究機関 | 富士通株式会社(富士通研究所) |
研究代表者 |
高木 拓也 富士通株式会社(富士通研究所), その他部局等, 研究員 (20855449)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
キーワード | 文字列情報学 / 全文索引 / オンライン索引 / 圧縮索引 / 接尾辞木 |
研究実績の概要 |
本研究は,様々な文字列情報学における問題に対し「どのようにすれば完全オンラインへの拡張が可能か?」を明らかにすることを目標としている.特に,(i)文脈性 (ii)完全オンライン性 (iii) 低メモリ性をもつ索引,すなわち「完全オンライン圧縮文字列索引」の構築を目指している .これを実現するためには,圧縮索引の通常オンライン構築アルゴリズムの開発と,その完全オンライン化の二つのステップが必要である. 2021年度は完全オンライン性をもつ低メモリ索引の構築に向けて,圧縮文字列索引の通常オンライン構築アルゴリズムに関する研究に注力し,東北大学のDiptarama Hendrian助教授・九州大学の稲永俊介准教授らのもと,非自明なアルゴリズムを得ることができた.具体的には,線形サイズ接尾辞木(Linear-size Suffix tree)と呼ばれる索引構造のオンライン構築を接尾辞リンク(suffix link)がなす木構造の動的な管理をmicro-macro分割を用いた最近印付き祖先(Nearest Marked Ancestor)クエリ構造を利用することで実現した.また,機械学習分野における応用として,因果関係を表現するDAG構造とアクション列の組からアクションの半順序関係を表現するDAG構造を構築するアルゴリズムを開発し,国際会議にて発表した.これは圧縮索引であるCDAWGなどのDAG構造に関する研究を通じて得られたものである.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2021年度はコロナ禍による研究環境の変化のため共同研究者との議論や研究会への参加などが行えず,当初予定していた完全オンライン化に関する問題解決が想定よりも進まなかった.一方で,圧縮索引のオンライン構築の議論は進展し,また機械学習分野における成果が得られ国際会議における発表を実現できた.
|
今後の研究の推進方策 |
文字列索引の完全オンライン化に注力する.特に,圧縮索引化が可能なCDAWGと呼ばれる索引構造の完全オンライン構築アルゴリズムを開発する.具体的には,CDAWGは接尾辞木を同値類的観点からコンパクトに表現したものであるため,接尾辞木の完全オンライン構築アルゴリズムを実現する際に用いたDAWGとの並列構築手法をCDAWGにも適用することを考えたい.CDAWGの完全オンライン構築が実現した場合,圧縮CDAWGは2021年度に議論した線形サイズ接尾辞木と密接な関係があるため,本研究の大目標である「完全オンライン圧縮文字列索引」への大きな一歩となることが期待される.
|
次年度使用額が生じた理由 |
本年度の計画では,共同研究者との議論のための出張費と計算機の購入を予定していた.前者に関しては所属組織のおけるコロナ禍による出張の禁止により断念し,後者に関してもコロナ禍におけるサプライチェーンの混乱と世界的な部品不足により本年度内の納品を断念した.
|