研究課題/領域番号 |
21K17817
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 富士通株式会社(富士通研究所) |
研究代表者 |
高木 拓也 富士通株式会社(富士通研究所), その他部局等, 研究員 (20855449)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2024年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2023年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2022年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2021年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
|
キーワード | 文字列情報学 / 羅生門集合 / 圧縮索引 / 説明可能性 / 全文索引 / オンライン索引 / 接尾辞木 / 圧縮アルゴリズム / 完全オンライン索引 |
研究開始時の研究の概要 |
ネットワークとセンサー技術の発展により,あらゆる場所に設置された情報源から日々膨大なデータ(ストリームデータ)が生み出され続けている.これらはデータの一次元的連結である文字列として扱うことができる.そこで本研究では,複数のストリームからデータが逐次的に集約される「マルチストリームデータ」を効率よく処理するための文字列索引・文字列圧縮技術・その他文字列アルゴリズムの開発を行う.完全オンラインと呼ばれるマルチストリーム下を想定した問題設定において新たな文字列アルゴリズム,特に完全オンライン圧縮文字列索引を開発することを目標にし,膨大なマルチストリームデータの効率の良い処理を実現する.
|
研究実績の概要 |
本研究は,様々な文字列情報学における問題に対し「どのようにすれば完全オンラインへの拡張が可能か?」を明らかにすることを目標としている.特に,(i)文脈性 (ii)完全オンライン性 (iii) 低メモリ性をもつ索引,すなわち「完全オンライン圧縮文字列索引」の構築を目指している .これを実現するためには,圧縮索引の通常オンライン構築アルゴリズムの開発と,その完全オンライン化の二つのステップが必要である. 2023年度は昨年度開発した決定木モデルに対する『羅生門集合』構築アルゴリズムの実装とその応用に注力した.羅生門集合とは最適決定木とほとんど同じ精度を持つ決定木の集合である.これには本研究の圧縮索引構造のアイデアを用いることで成功した.羅生門集合に関してはメディア取材や招待講演を行うことができた.また,この決定木に着目し,予測モデルの補正を決定木で行うことで説明可能性を担保する技術を開発し国際会議で発表した.これにより予測モデルの更新箇所を説明可能なモデルが得られた.また決定木で分類された属性ごとに,予測モデルの予測値を所望の値に変更する摂動を計算する技術の開発に成功し発表した.また昨年度に引き続き,東北大学のDiptarama Hendrian助教授・九州大学の稲永俊介教授らの協力のもと,線形サイズ接尾辞木(Linear-size Suffix Tree)に対して,文字列の末尾が伸長する場合と先頭が伸長する場合のオンライン構築アルゴリズムの具体的な手法を与えることに成功した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2023年度は線形サイズ接尾辞木に対するオンライン構築アルゴリズムを与えた一方で,計画にあったCDWAGに関する問題解決が想定よりも進まなかった. しかし昨年度に引き続き機械学習分野における応用成果が得られ,国際会議における発表を実現できた.特に昨年度の主な成果である羅生門集合構築で扱った決定木に着目し,あらたな応用技術の成果を得ることができた.
|
今後の研究の推進方策 |
まず羅生門集合の構築手法をほかの機械学習モデルに発展させることを考えたい.今年度は構造方程式を表現する因果グラフに着目した羅生門構築アルゴリズムを開発したが,対外発表まで至らなかった.まずこの技術を完成させ,国際会議等で発表したい.また,今年度解決できなかった圧縮索引化が可能なCDAWGと呼ばれる索引構造の完全オンライン構築アルゴリズムを開発したい.具体的には,CDAWGは接尾辞木を同値類的観点からコンパクトに表現したものであるため,接尾辞木の完全オンライン構築アルゴリズムを実現する際に用いたDAWGとの並列構築手法をCDAWGにも適用することを考えたい.
|