2021 Fiscal Year Research-status Report
潜在的規則の抽出を目的とした負の相関ルールの抽出の効率化と一般化
Project/Area Number |
19K12096
|
Research Institution | University of Yamanashi |
Principal Investigator |
岩沼 宏治 山梨大学, 大学院総合研究部, 教授 (30176557)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 負の相関ルール / 潜在因子 / 一般化アイテム集合 / 極小生成子 / 強飽和集合 / 圧縮 / オンライン抽出 |
Outline of Annual Research Achievements |
本研究では、巨大データに潜在するルール知識の効果的な抽出を目的として、負の相関ルールの効率的な抽出法について研究を行ってきた.2021年度の実績は以下の通りである. (1)既に我々は,膨大な負ルール集合の効果的な圧縮を目的として,極小生成子と飽和集合の対を全て列挙するアルゴリズムを開発している.このアルゴリズムは極小生成子を計算の出発点とするが,疎なデータ上では高速な列挙計算が難しかった.そこで我々は,新たに仮想一般化アイテムという概念を考案し,昨年度までに開発した双方向垂直出現木上の列挙メカニズムの中に組み込みを行った.性能評価実験を行ったところ,一定の高速化の効果が確認できた, (2)強飽和集合は,上記の標準的な飽和集合手法では圧縮が困難な疎なデータを効果的に圧縮できるが,その圧縮計算の高速化は大きな課題であった.我々は新たに,疎なデータの強飽和圧縮に際する先読み計算メカニズムを開発し,昨年までに開発したオンライン型の強飽和圧縮計算法の高速化を試みた.性能評価実験を行ったところ,この先読み型圧縮計算によって,疎なデータと密なデータの双方に対して安定的な高速化が達成できていることを確認している. (3)負の相関ルールの表現能力を本質的に向上させるためには,正と負のアイテム双方を要素として持てる一般化アイテム集合が極めて有効である.本年度は,これまでに開発した一般化アイテム集合の飽和集合の抽出列挙計算の高速化を目的として,正の飽和集合を出発点として負のアイテムを逐次追加し,その度に閉包計算を繰り返して,全ての飽和集合を列挙するアルゴリズムの開発を行った.まだ予備的な性能評価実験しか実施できていないが,その結果を見る限り,十分な高速化が達成できていると判断される.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究は当初の予定よりもやや遅れている.新型コロナ流行に伴って研究室内部での対面活動が制限されたこともあり,極小生成子と飽和集合の同時抽出アルゴリズムへの仮想一般化アイテム概念の実装が遅れた他,一般化アイテム集合の正の飽和集合を基本とする負アイテム拡大・閉包計算のアルゴリズムの実装と改良にも手間取ったことなどが主な原因である.これらに加えて,新型コロナウイルス流行に伴う学内業務が増加したことや,発表機会が限定されたことに伴う学外の研究者との研究討論を行う機会の減少も,研究の遅れの遠因となっている.今後,研究計画を見直して遅れを取り戻すと共に,オンライン研究集会等に積極的に参加し,研究成果を発表していく予定である.
|
Strategy for Future Research Activity |
以下のように研究を進めていく予定である. (1)極小生成子と飽和集合の対を全て列挙するアルゴリズムには,計算の出発点を飽和集合とするものと極小生成子を出発点とするものの2種類がある.極小生成子から計算を開始する方式では疎なデータの高速計算が困難であることが分かってきたので,再度,飽和集合からの計算方式の改良に取り組む予定である.飽和集合からの計算方式の難点は必要するメモリ容量の巨大さであり,その点の改良に取り組んでいく予定である. (2)強飽和集合のオフライン型高速計算法の改良を今年度予定していたが,幾つかの問題から進んでいない.問題点を検討して改善に取り組んでいく予定である. (3)遅れていた一般化アイテム集合の飽和集合の列挙計算は,システムの実装に目途が立ち,大規模データに対する性能評価実験が行える段階に至っている.今後,包括的で信頼性の高い評価実験を進めると同時に,アルゴリズムと実装プログラムの改良に取り組む予定である.
|
Causes of Carryover |
2021年度も,新型コロナウィルス流行のために全ての学会がオンライン会議となったため,出張旅費や学会参加費等用の予算が残った。結果として,2020年度の予算残額(これも新型コロナ流行による学会出張取り止めなどによるもの)に2021年度の旅費の予定額が積み上がった額が残ってしまった.2022年度は幾つかの学会および論文誌で発表を行う予定でおり、また提案アルゴリズムの包括的な評価に必要な計算機の購入費用として使用する予定である。
|
Research Products
(4 results)