研究課題/領域番号 |
19K12096
|
研究機関 | 山梨大学 |
研究代表者 |
岩沼 宏治 山梨大学, 大学院総合研究部, 教授 (30176557)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | 負の相関ルール / 潜在因子 / 一般化アイテム集合 / 極小生成子 / 強飽和集合 / 圧縮 / オンライン抽出 |
研究実績の概要 |
本研究では、巨大データに潜在するルール知識の効果的な抽出を目的として、負の相関ルールの効率的な抽出法について研究を行ってきた.2020年度の実績は以下の通りである. (1)巨大データに潜在する負の相関ルールは莫大な数となるため,負ルール集合を圧縮・一般化して,少数の代表的なルールの集合として抽出することが重要である。そのため,我々は,極小生成子と飽和集合に基づく圧縮法を提案し研究を行ってきた.本年度はルール圧縮の基盤となる極小生成子と対応する飽和集合を同時に効果的に抽出する新しい手法を開発した.また高速化のために双方向垂直出現木という新しいデータ構造を開発している. (2)上述の極小生成子に基づく負ルール集合の圧縮・一般化は,密なデータ上では非常に効果的であるが,疎なデータでは効果があまり無い.そこで我々は,飽和集合を一般化した強飽和集合に着目し、それに基づく負ルール集合の圧縮・一般化について研究を行ってきた.本年度は,全ての強飽和集合をオンライン列挙する高速な近似計算法について研究開発を行った.先読みに基づく探索木の枝刈法などを開発し,疎なデータ集合上で高速なオンライン抽出を安定的に行うことを可能にした.実験的評価を行い,良好な結果を確認している. (3)極小生成子に基づく正負の相関ルールの集合を列挙するための高速アルゴリズムの開発を行った.抽出する正負のルールの集合は,データ中に潜在する知識を表すことから,それ自身は無矛盾であり非冗長であることが望ましい.但し,抽出した多数の正負のルールを組み合わせて,後から無矛盾かつ非冗長なルール集合を構成することは極めて非効率的である.そのため我々は正負のルールに優先順位を仮定し,その優先順位に従って,互いに無矛盾かつ非冗長なルールのみを逐次抽出して妥当なルール集合を構築するアルゴリズムを開発した.評価実験の結果,良好な性能を確認した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
研究は当初の予定よりも若干遅れている.極小生成子と飽和集合の同時抽出を行うアルゴリズムの開発と実装が遅れたことや,強飽和集合のオンライン抽出の枝刈に基づく高速化技術の開発に手間取ったことが主な原因である.これらに加えて,新型コロナウイルス流行に伴い,対応のための学内業務が大幅に増加したことや,発表機会が限定されたことに伴う学外の研究者との研究討論を行う機会の減少も,研究の遅れの遠因となっている.今後,研究計画を見直して遅れを取り戻すと共に,オンライン研究集会等に積極的に参加し,研究成果を発表していく予定である.
|
今後の研究の推進方策 |
以下のように研究を進めていく予定である. (1)提案した極小生成子と飽和集合の対集合の抽出アルゴリズムは密なデータに関して効果的あるが,疎なデータに関して非効果的である.そのため新しく仮想一般化アイテムという新しい概念を導入し,疎なデータに関する計算性能を向上させていく予定である.この仮想一般化アイテムは今年度開発した双方向垂直出現木との親和性が大変高く,効果的な抽出処理が可能になると思われる. (2)強飽和集合の提唱者である Boley はオフライン型の抽出法を提案している.一般に,データ全てが揃っている場合,オフライン型計算の方がオンライン型計算よりも早いことは良く知られている.Boley のオフライン型抽出法を検討したところ,かなりの改良ができる見込みが立ったため,今後,オフライン型の抽出法の研究も行う予定である.また,強飽和集合を用いた負ルールの表現方法と,双対概念である強極小生成子を用いた手法について考察を含め,負ルールの集合の効果的な圧縮と一般化,および抽出法について研究を進めていく予定である. (3)ルールの表現力を格段に高めるためには,正負のアイテムが混在する一般化アイテム集合を用いた一般化相関ルールが有用であり,今後,一般化ルール集合の効果的な抽出法の研究を行う.より具体的には一般化アイテム集合の飽和集合と極小生成子の効果的な生成法および,一般化アイテム集合の圧縮に基づく負ルールの抽出法について考察を進めていく予定である
|
次年度使用額が生じた理由 |
2020年度は,新型コロナウィルス流行のために,全ての学会がオンライン会議となったため,出張旅費や学会参加費等用の予算が残った。そのため2021年度に購入予定であった計算サーバを前倒しで購入した.結果として,2019年度の予算残額(これも新型コロナ流行による学会出張取り止めなどによるもの)に相当する額がそのまま残っている.2021年度は幾つかの学会および論文誌で発表を行う予定でおり、その費用として使用する予定である。
|
備考 |
負の相関ルールマイニングとオンライン近似計算 http://www.kki.yamanashi.ac.jp/~iwanuma/Kaken2019/
|