潜在的規則の抽出を目的とした負の相関ルールの抽出の効率化と一般化
Project/Area Number |
19K12096
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | University of Yamanashi |
Principal Investigator |
岩沼 宏治 山梨大学, 大学院総合研究部, 教授 (30176557)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2021: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Fiscal Year 2020: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2019: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
|
Keywords | 負の相関ルール / 潜在因子 / 極小生成子 / 列挙 / 強飽和集合 / 圧縮 / データマイニング / 一般化アイテム集合 / オンライン抽出 / 潜在的規則 |
Outline of Research at the Start |
大規模データ上で観測される事象の関係を考察するには,データの中に隠れている潜在因子を考慮することが極めて重要である.しかし潜在因子は直接には観測できないために,それに関係する法則の発見は非常に難しい.この問題に対処するために,我々は潜在的法則の表現としての負の相関ルールに着目し,その抽出法について研究を行う.負の相関ルールとは,¬X⇒Yや X⇒¬Y のような形の規則のことであり,¬X や ¬Y は潜在因子(負の事象集合)を表現している.¬X⇒Y は「Xが起きないときに Yがよく起きる」ことを意味する.負の相関ルールは正ルールでは表現できない潜在的な共起関係を表現でき,極めて有用でものである.
|
Outline of Annual Research Achievements |
本研究では、巨大データに潜在するルール知識の効果的な抽出を目的として、負の相関ルールの効率的な抽出法について研究を行ってきた.2022年度の研究実績の概要は以下の通りである. (1)極小生成子と飽和集合の対の列挙問題では,列挙の出発点としては飽和集合と極小生成子のどちらも利用することができる.昨年までの研究の結果,極小生成子を出発点とする方式では疎なデータの高速列挙が困難であることが判明した.そこで,我々がこれまでに開発してきた飽和集合を出発点とする列挙アルゴリズムの改良に取り組んだ.これまでの方式では,生成子の極小性の判定と重複計算を回避するために計算過程を全てハッシュ表に記録する必要があり,巨大なメモリを必要とする欠点があった.そのため,この解決を目標として次の2つの方法に取り組んだ. [1-a] 必要メモリ量を緩和するために,これまでのトップダウン型探索をボトムアップ型探索へ方式に変更した列挙アルゴリズムを開発した.性能評価実験の結果,必要メモリ量がある程度の削減できることが確認できた.但し,列挙に要する計算時間は若干悪化することが確認できた. [1-b] 2番目の方法として,新たに生成子の極小性の判定原理を解明し,ハッシュ表の記録を全く必要としない方式の開発に成功した.計算実験の結果,必要なメモリの大幅な削減効果が確認できた.但し,重複計算が防止できないことから,計算時間は大幅に悪化してしまうことが確認された. (2)強飽和集合のオフライン型高速計算アルゴリズムの研究に取り組み,探索空間の分割統治に伴うデータベース縮約法の精錬化法を開発した.基本的な計算原理とアルゴリズムの設計は完了することができた.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究は当初の予定よりもやや遅れている.新型コロナも治まってきたが,研究室レベルでの対面活動はまだ制限があったこともあり,研究グループ内での検討作業や実装作業の遅れを十分には取り戻すことができなかった.また学内業務も新型コロナ流行前の水準に比較するとまだ多く,研究の時間が十分確保できなかった.また発表機会が限定されたことに伴う学外の研究者との研究討論を行う機会の減少も,研究の遅れの遠因となっている.今後,対面の作業を増やし,遅れを取り戻すと共に,対面景色の研究集会にも積極的に参加し研究成果を議論して,内容を改善していく予定である.
|
Strategy for Future Research Activity |
以下のように研究を進めていく予定である. (1)極小生成子と飽和集合の対の列挙は,飽和集合を出発点とする方式においてもメモリの過大な消費を抑え込める目処は立ったが,その代償として列挙計算の速度が低下した.この解決を目的として,上記2番目の生成子の極小性の新しい判定原理を用いる手法を改良することを計画している.具体的には,ハッシュ表を一部復活させてキャッシュとして利用する技術を開発し,計算速度の改善を図る予定である. (2)強飽和集合のオフライン型高速計算アルゴリズムに関しては,基礎的な考察が完了しているので,実装した上で包括的な性能評価実験を行う予定である.
|
Report
(4 results)
Research Products
(16 results)