研究課題/領域番号 |
22K12165
|
研究機関 | 山梨大学 |
研究代表者 |
岩沼 宏治 山梨大学, 大学院総合研究部, 教授 (30176557)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
キーワード | データマイニング / 潜在因子 / 相関ルール / 一般化アイテム集合 / 強飽和集合 / 圧縮 / オンライン計算 |
研究実績の概要 |
本研究では、巨大データに潜在するルール知識の効果的な抽出を目的として、正負双方のアイテムで表現される一般化相関ルールのマイニングについて研究を行ってきた.2022年度の研究実績の概要は以下の通りである. (1)正負のアイテムが混在する一般化アイテム集合は,従来の正のアイテム集合と比較してもその数は極めて多く,取扱いが困難である.そのため有用な一般化アイテム集合を直接的に圧縮抽出し,保持するなどの工夫が必要である.我々はまず基本的な圧縮手法として飽和性に着目し,飽和した一般化アイテム集合だけを直接抽出する列挙アルゴリズムについて研究を行った.幾つかの手法を開発して性能比較実験を行ったところ,列挙途中でのデータベース縮約効果に関して大きな差が出ることが確認されている.この問題への対応が現在の課題である. (2)飽和集合は疎なデータセットに対して圧縮効果が弱いことが良く知られている.そのための対策として,本研究では強飽和性に基づく圧縮について研究を行ってきた.強飽和性に基づく圧縮は非可逆圧縮となるが,一定の情報復元は可能であり有用である.我々は過去に飽和集合のε近似オンライン列挙アルゴリズムを開発している.これをベースとして,新しく強飽和集合のオンライン列挙アルゴリズムを開発し,一定の成果を得た.但しその過程で,オンラインの枠組みには一定の限界があることも判明したので,原点に立ち返ってオフライン型の強飽和集合の列挙法について研究を継続した.探索空間の分割統治により強飽和集合の重複列挙を防止し,更に,分枝を限定するための禁止アイテム集合の精密な生成法を開発して計算速度の向上を図っている.これらの予備的性能評価実験を行い,一定の効果を確認している.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
研究は当初の予定よりもやや遅れている.新型コロナも治まってきたが,研究室レベルでの対面活動はまだ制限があったこともあり,研究グループ内での検討作業や実装作業の遅れを十分には取り戻すことができなかった.また学内業務も新型コロナ流行前の水準に比較するとまだ多く,研究の時間が十分確保できなかった.また発表機会が限定されたことに伴う学外の研究者との研究討論を行う機会の減少も,研究の遅れの遠因となっている.今後,対面の作業を増やし,遅れを取り戻すと共に,対面景色の研究集会にも積極的に参加し研究成果を議論して,内容を改善していく予定である.
|
今後の研究の推進方策 |
以下のように研究を進めていく予定である. (1)一般化アイテム集合の飽和集合の列挙計算においては,データベース縮約効果を保証することが極めて重要である.現在の我々の列挙法では限定的な効果しか得られていない.本質的な問題点を解明し,列挙アルゴリズムを再設計する予定である. (2)強飽和集合のオフライン型高速列挙アルゴリズムに関しては,基礎的な考察が完了しているので,実装の上で包括的な性能評価実験を行い,より高性能なアルゴリズムとシステム開発を行う予定である.
|
次年度使用額が生じた理由 |
2022年度も,新型コロナウィルス流行のために国際会議への出張旅費や参加費等用の予算が残った。2023年度は幾つかの学会および論文誌で発表を行う予定でいる.
|