2023 Fiscal Year Research-status Report

Generalized Association Rule Mining for Representing Latent Properties and its Abstraction Based on Strong Closedness Compression

Research Project

Project/Area Number	22K12165
Research Institution	University of Yamanashi
Principal Investigator	岩沼宏治山梨大学, 大学院総合研究部, 教授 (30176557)
Project Period (FY)	2022-04-01 – 2025-03-31
Keywords	負の相関ルール / 潜在因子 / 圧縮 / 一般化アイテム集合 / 強飽和集合 / 極小生成子 / データマイニング
Outline of Annual Research Achievements	本研究では，巨大データに潜在するルール型知識の効果的な抽出を目的として，正負双方のアイテムで表現される一般化アイテム集合を用いた相関ルールのマイニングについて研究を行ってきた．2023年度の研究実績は以下のとおりである．（１）大規模データが内在する性質はかなり複雑であり，その表現には複数のルールが必要となる．またデータは種々の側面・性質を持つことが通常であるので，それらを表現するルール集合も複数のものを抽出する必要がある．本年度は，個々の評価値が高くかつ相互に独立性の高い（＝類似性の低い）複数のルール集合を効果的に抽出列挙する手法について研究を行った．幾つかの列挙アルゴリズムを開発し，実データで予備的な評価実験を行った．その結果，列挙中にクラスタリングを併用する手法などが望ましい性質を持つことを確認している．（２）強飽和集合は飽和集合における出現頻度の条件を緩めることによって一般化し，圧縮性能を大幅に上げるものである．ただ，その代償として圧縮は不可逆変換となり，更に復元時の最大誤差の性能保証等も非常に難しい欠点がある．一方で，出現頻度そのものにε誤差を許容する圧縮手法も考えられ，強飽和性とほぼ同等な圧縮効果が期待できる．そこで本研究では出現頻度にε誤差を許容する第一段階として，ε近似分位数に着目して研究を進めた．ε近似分位数では，頻度の累積値に相当するランクの最大誤差を理論保証しながら抽出するオンライン型アルゴリズムが知られている．本年度は，その既存手法にカウンタを新たに導入して性能を改善する研究を行った．新たに開発したオンライン型アルゴリズムでは最大誤差保証を維持しながら，計算速度と省メモリ性の改善，および抽出した近似分位数の平均ランク誤差の一桁程度の改善を，実データを用いた性能評価実験により，確認することができた．
Current Status of Research Progress	Current Status of Research Progress 4: Progress in research has been delayed. Reason 研究は当初の予定より遅れている．2023年度も研究開始当初の新型コロナ流行による研究活動の制限の影響を残してしまった．より具体的には，一般化アイテム集合および強飽和集合の効率的な計算手法の開発が当初の見込みよりもかなり難しいことの判明が遅れてしまったたことによるものである．今後，精力的に研究を進め遅れを回復したいと考えている．
Strategy for Future Research Activity	今後の研究の予定は以下のとおりである．（１）強飽和集合（や強極小生成子）は復元時の最大誤差の理論保証が難しいことから，今後は出現頻度にε近似を導入し，飽和集合および極小生成子を更に圧縮する2段圧縮手法も併せて考察する予定である．これは標準飽和集合（標準極小生成子）と強飽和集合（強極小生成子）の中間の性質をもつ圧縮表現形式を考察することに相当し，計算メカニズム等の解明も行う予定である．（２）一般化アイテム集合の飽和集合や極小生成子の列挙計算においては，データベース縮約を導入することが非常に重要であるが，その実現にはまだ幾つかの課題が残されている．これらを解決し列挙アルゴリズムを再設計する予定である．（３）大規模データの複数の本質的に異なるルール集合を抽出列挙することは実用上とても重要である．今後，本年度得られた成果を改良し，更に良い列挙手法を探ってゆく予定である．
Causes of Carryover	2023年度も，新型コロナウィルス流行その他による研究進捗の遅れの影響により，国際会議への出張旅費や参加費等用の予算がかなり残った。2024年度は遅れを取り戻し，幾つかの学会および論文誌で発表を行う予定でいる．