• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Research-status Report

Study of index construction and compression algorithms in fully-online setting

Research Project

Project/Area Number 21K17817
Research InstitutionFujitsu Limited (Fujitsu Research)

Principal Investigator

高木 拓也  富士通株式会社(富士通研究所), その他部局等, 研究員 (20855449)

Project Period (FY) 2021-04-01 – 2025-03-31
Keywords文字列情報学 / 全文索引 / オンライン索引 / 圧縮索引 / 接尾辞木 / 羅生門集合 / 説明可能性
Outline of Annual Research Achievements

本研究は,様々な文字列情報学における問題に対し「どのようにすれば完全オンラインへの拡張が可能か?」を明らかにすることを目標としている.特に,(i)文脈性 (ii)完全オンライン性 (iii) 低メモリ性をもつ索引,すなわち「完全オンライン圧縮文字列索引」の構築を目指している.これを実現するためには,圧縮索引の通常オンライン構築アルゴリズムの開発と,その完全オンライン化の二つのステップが必要である.
2022年度は機械学習分野において決定木モデルの列挙構造が動的計画法と同様の構造を持つことを見出し,『羅生門集合』と呼ばれる最適決定木とほとんど同じ精度を持つ決定木の集合を構築するアルゴリズムを初めて与えることに成功した.列挙した決定木は特徴量数の指数個存在する可能性があるため,これを保持するためにはよりコンパクトな索引が必要となる.この課題に対して本研究の圧縮索引構造のアイデアを用いることにより解決することに成功した.羅生門集合は機械学習モデルの説明可能性から近年注目されている概念であり,今後決定木以外のモデルへの拡張が考えられる.また昨年度に引き続き,東北大学のDiptarama Hendrian助教授・九州大学の稲永俊介教授らの協力のもと,昨年度おおむね完成していた最近印付き祖先(Nearest Marked Ancestor)クエリ構造を利用する線形サイズ接尾辞木(Linear-size Suffix Tree)の構築アルゴリズムを精査し具体的な手法を与えることに成功した.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

2022年度は当初予定していた完全オンライン化に関する問題解決が想定よりも進まなかった一方で,機械学習分野における応用成果が得られ国際会議における発表を実現できた.特に羅生門集合の構築は機械学習の説明可能性分野で注目されている問題であり,これに初めての解法を与えることができたことの意義は大きいと考えている.

Strategy for Future Research Activity

今後は今年度解決できなかった圧縮索引化が可能なCDAWGと呼ばれる索引構造の完全オンライン構築アルゴリズムを開発する.具体的には,CDAWGは接尾辞木を同値類的観点からコンパクトに表現したものであるため,接尾辞木の完全オンライン構築アルゴリズムを実現する際に用いたDAWGとの並列構築手法をCDAWGにも適用することを考えたい.
また,今年度開発した羅生門集合の構築手法をほかの機械学習モデルに発展させることを考えたい.具体的には,決定木と同様にルールベースモデルとなるルールセットや,CDAWGと同様のDAG構造を持つ因果グラフなどの離散構造に着目した新たな手法を与えたいと考えている.

Causes of Carryover

本年度の計画では,完成したアルゴリズムの実装実験を計画していたため,それをにともなう計算機の購入を予定していた.しかしながら羅生門集合の構築アルゴリズムという理論研究を推進することになり,実験計画が遅れたことにより計算機の購入を断念した.次年度は実験に伴う計算機の購入を計画している.

  • Research Products

    (3 results)

All 2022

All Presentation (3 results) (of which Int'l Joint Research: 2 results,  Invited: 1 results)

  • [Presentation] Exploring the Whole Rashomon Set of Sparse Decision Trees2022

    • Author(s)
      Rui Xin, Chudi Zhong, Zhi Chen, Takuya Takagi, Margo Seltzer, Cynthia Rudin
    • Organizer
      NeurIPS 2022
    • Int'l Joint Research
  • [Presentation] A Multivariate Causal Discovery based on Post-Nonlinear Model2022

    • Author(s)
      Kento Uemura, Takuya Takagi, Kambayashi Takayuki, Hiroyuki Yoshida, Shohei Shimizu
    • Organizer
      CLeaR 2022
    • Int'l Joint Research
  • [Presentation] 機械学習モデルの列挙と羅生門集合の構築2022

    • Author(s)
      高木拓也
    • Organizer
      人工知能学会 第123回人工知能基本問題研究会
    • Invited

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi