Generalized Association Rule Mining for Representing Latent Properties and its Abstraction Based on Strong Closedness Compression
Project/Area Number |
22K12165
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | University of Yamanashi |
Principal Investigator |
岩沼 宏治 山梨大学, 大学院総合研究部, 教授 (30176557)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2024: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2022: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
|
Keywords | データマイニング / 潜在因子 / 相関ルール / 一般化アイテム集合 / 強飽和集合 / 圧縮 / オンライン計算 / 潜在的性質 / 負の相関ルール / 強飽和性 / アルゴリズム |
Outline of Research at the Start |
巨大データ中の事象の関係を考察するためには,データ中に潜む潜在因子を考慮することが極めて重要である.潜在因子に関するルールを発見するためには,まず潜在因子の表現形式を考察する必要がある.本研究では,正負のアイテムの混在を許した一般化アイテム集合と,その上の一般化相関ルールを潜在的法則の表現形式として提案する.負のアイテムは潜在因子の表現に極めて有効であり,正のアイテムとの混在式は非常に強力な表現力を持つ.但し,一般化アイテム集合と一般化ルールの数は非常に多いため,効果的な抽出計算および抽出したルールの理解が極めて難しい.これらを解決するために圧縮・抽象化およびその直接計算について研究を行う.
|
Outline of Annual Research Achievements |
本研究では、巨大データに潜在するルール知識の効果的な抽出を目的として、正負双方のアイテムで表現される一般化相関ルールのマイニングについて研究を行ってきた.2022年度の研究実績の概要は以下の通りである. (1)正負のアイテムが混在する一般化アイテム集合は,従来の正のアイテム集合と比較してもその数は極めて多く,取扱いが困難である.そのため有用な一般化アイテム集合を直接的に圧縮抽出し,保持するなどの工夫が必要である.我々はまず基本的な圧縮手法として飽和性に着目し,飽和した一般化アイテム集合だけを直接抽出する列挙アルゴリズムについて研究を行った.幾つかの手法を開発して性能比較実験を行ったところ,列挙途中でのデータベース縮約効果に関して大きな差が出ることが確認されている.この問題への対応が現在の課題である. (2)飽和集合は疎なデータセットに対して圧縮効果が弱いことが良く知られている.そのための対策として,本研究では強飽和性に基づく圧縮について研究を行ってきた.強飽和性に基づく圧縮は非可逆圧縮となるが,一定の情報復元は可能であり有用である.我々は過去に飽和集合のε近似オンライン列挙アルゴリズムを開発している.これをベースとして,新しく強飽和集合のオンライン列挙アルゴリズムを開発し,一定の成果を得た.但しその過程で,オンラインの枠組みには一定の限界があることも判明したので,原点に立ち返ってオフライン型の強飽和集合の列挙法について研究を継続した.探索空間の分割統治により強飽和集合の重複列挙を防止し,更に,分枝を限定するための禁止アイテム集合の精密な生成法を開発して計算速度の向上を図っている.これらの予備的性能評価実験を行い,一定の効果を確認している.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究は当初の予定よりもやや遅れている.新型コロナも治まってきたが,研究室レベルでの対面活動はまだ制限があったこともあり,研究グループ内での検討作業や実装作業の遅れを十分には取り戻すことができなかった.また学内業務も新型コロナ流行前の水準に比較するとまだ多く,研究の時間が十分確保できなかった.また発表機会が限定されたことに伴う学外の研究者との研究討論を行う機会の減少も,研究の遅れの遠因となっている.今後,対面の作業を増やし,遅れを取り戻すと共に,対面景色の研究集会にも積極的に参加し研究成果を議論して,内容を改善していく予定である.
|
Strategy for Future Research Activity |
以下のように研究を進めていく予定である. (1)一般化アイテム集合の飽和集合の列挙計算においては,データベース縮約効果を保証することが極めて重要である.現在の我々の列挙法では限定的な効果しか得られていない.本質的な問題点を解明し,列挙アルゴリズムを再設計する予定である. (2)強飽和集合のオフライン型高速列挙アルゴリズムに関しては,基礎的な考察が完了しているので,実装の上で包括的な性能評価実験を行い,より高性能なアルゴリズムとシステム開発を行う予定である.
|
Report
(1 results)
Research Products
(4 results)