研究課題/領域番号 |
22K12165
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 山梨大学 |
研究代表者 |
岩沼 宏治 山梨大学, 大学院総合研究部, 教授 (30176557)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2024年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2022年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | 負の相関ルール / 潜在因子 / 圧縮 / 一般化アイテム集合 / 強飽和集合 / 極小生成子 / データマイニング / 相関ルール / オンライン計算 / 潜在的性質 / 強飽和性 / アルゴリズム |
研究開始時の研究の概要 |
巨大データ中の事象の関係を考察するためには,データ中に潜む潜在因子を考慮することが極めて重要である.潜在因子に関するルールを発見するためには,まず潜在因子の表現形式を考察する必要がある.本研究では,正負のアイテムの混在を許した一般化アイテム集合と,その上の一般化相関ルールを潜在的法則の表現形式として提案する.負のアイテムは潜在因子の表現に極めて有効であり,正のアイテムとの混在式は非常に強力な表現力を持つ.但し,一般化アイテム集合と一般化ルールの数は非常に多いため,効果的な抽出計算および抽出したルールの理解が極めて難しい.これらを解決するために圧縮・抽象化およびその直接計算について研究を行う.
|
研究実績の概要 |
本研究では,巨大データに潜在するルール型知識の効果的な抽出を目的として,正負双方のアイテムで表現される一般化アイテム集合を用いた相関ルールのマイニングについて研究を行ってきた.2023年度の研究実績は以下のとおりである. (1)大規模データが内在する性質はかなり複雑であり,その表現には複数のルールが必要となる.またデータは種々の側面・性質を持つことが通常であるので,それらを表現するルール集合も複数のものを抽出する必要がある.本年度は,個々の評価値が高くかつ相互に独立性の高い(=類似性の低い)複数のルール集合を効果的に抽出列挙する手法について研究を行った.幾つかの列挙アルゴリズムを開発し,実データで予備的な評価実験を行った.その結果,列挙中にクラスタリングを併用する手法などが望ましい性質を持つことを確認している. (2)強飽和集合は飽和集合における出現頻度の条件を緩めることによって一般化し,圧縮性能を大幅に上げるものである.ただ,その代償として圧縮は不可逆変換となり,更に復元時の最大誤差の性能保証等も非常に難しい欠点がある.一方で,出現頻度そのものにε誤差を許容する圧縮手法も考えられ,強飽和性とほぼ同等な圧縮効果が期待できる.そこで本研究では出現頻度にε誤差を許容する第一段階として,ε近似分位数に着目して研究を進めた.ε近似分位数では,頻度の累積値に相当するランクの最大誤差を理論保証しながら抽出するオンライン型アルゴリズムが知られている.本年度は,その既存手法にカウンタを新たに導入して性能を改善する研究を行った.新たに開発したオンライン型アルゴリズムでは最大誤差保証を維持しながら,計算速度と省メモリ性の改善,および抽出した近似分位数の平均ランク誤差の一桁程度の改善を,実データを用いた性能評価実験により,確認することができた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
研究は当初の予定より遅れている.2023年度も研究開始当初の新型コロナ流行による研究活動の制限の影響を残してしまった.より具体的には,一般化アイテム集合および強飽和集合の効率的な計算手法の開発が当初の見込みよりもかなり難しいことの判明が遅れてしまったたことによるものである.今後,精力的に研究を進め遅れを回復したいと考えている.
|
今後の研究の推進方策 |
今後の研究の予定は以下のとおりである. (1)強飽和集合(や強極小生成子)は復元時の最大誤差の理論保証が難しいことから,今後は出現頻度にε近似を導入し,飽和集合および極小生成子を更に圧縮する2段圧縮手法も併せて考察する予定である.これは標準飽和集合(標準極小生成子)と強飽和集合(強極小生成子)の中間の性質をもつ圧縮表現形式を考察することに相当し,計算メカニズム等の解明も行う予定である. (2)一般化アイテム集合の飽和集合や極小生成子の列挙計算においては,データベース縮約を導入することが非常に重要であるが,その実現にはまだ幾つかの課題が残されている.これらを解決し列挙アルゴリズムを再設計する予定である. (3)大規模データの複数の本質的に異なるルール集合を抽出列挙することは実用上とても重要である.今後,本年度得られた成果を改良し,更に良い列挙手法を探ってゆく予定である.
|