2016 Fiscal Year Research-status Report
潜在的相関ルール抽出を目的したオンライン型近似計算法の開発と仮説推論との統合
Project/Area Number |
16K00298
|
Research Institution | University of Yamanashi |
Principal Investigator |
岩沼 宏治 山梨大学, 総合研究部, 教授 (30176557)
|
Co-Investigator(Kenkyū-buntansha) |
山本 泰生 山梨大学, 総合研究部, 助教 (30550793)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | データマイニング / 負の相関ルール / オンライン型アルゴリズム / 近似計算 / 飽和集合 / 極小生成子 / アイテム集合系列 |
Outline of Annual Research Achievements |
平成28年度には,潜在的相関ルールマイニングの実現する基盤を確立するために,負の相関ルールの極小生成子に基づく生成に関して種々の研究を行った. まず極小生成子に基づく負ルール集合の圧縮原理に関して考察を行い,提案手法が確かに無損失圧縮となっていることを理論的に証明した.実際に圧縮システムを試作し,圧縮率等について実証的に検証したところ,密なデータセットに関して十分な圧縮性能を持つことが確認できた. 次に,この極小生成子の集合だけを用いて妥当な負ルールを全て抽出するオフライン型手法を開発した.まず,極小生成子が下方閉包性を持つことを新たに証明し,極小生成子だけを用いて接尾辞木が過不足なく構成できることを示した.これを基に,接尾辞木を用いたオフライン型の負ルールの高速抽出アルゴリズムを開発した.提案手法は極小性判定に基づく冗長な負ルールの生成の抑制と,確信度の上界関数の逆単調性を用いた探索の枝刈を用いて,全ての負ルールを高速に抽出枚挙する手法である.提案手法は,負ルールの抽出過程において極小生成子を展開せずに,即ち膨大な数におよぶ頻出アイテム集合を全く利用しないことから,負ルールの抽出の高速化が可能となっている.抽出システムを試作し,性能評価実験を行った結果,密なデータセットに内在する負ルールの抽出計算の高速化に大きな効果があることが確認できた. また,より高速な負ルール抽出を目的として,トランザクションストリームからスライディングウインドウを用いたオンライン型近似抽出アルゴリズムについても研究を行った.オンラインで負ルールを抽出するためには,ストリームデータからオンラインで飽和アイテム集合を近似計算により抽出し,更にそこから極小生成子を高速抽出することが必要になる.これらの手法の基盤を固めるために基礎的研究を理論的および実証的に行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初に予定していた研究計画のうち,最も基本的で重要である極小生成子に基づく負ルール集合のオフライン型抽出計算に関する部分は,その理論的考察およびアルゴリズム論的考察とも,概ね順調に研究が進展している.試作したシステムも最初の版としては十分なものであり,実証実験にも支障は生じていない.計画が遅れている部分は,飽和アイテム集合から極小生成子を効果的に高速抽出するアルゴリズムの開発である.当初に有望と見込んでいた手法は実証実験の結果,あまり効果的でないことが判明した.その原因を同定して,問題点を回避する新しい抽出法の開発に現在取り組み,解決の目途がほぼたった状況である. ストリームデータからのオンライン近似計算による負ルールの高速抽出方法の開発は,全体的に当初の予定より,若干遅れている.特に,極小生成子の頻度誤差を予め仮定し,抽出した負ルールの支持度や確信度に混入する誤差を一定限度内に抑え込むための手法の研究開発が遅れている.今後研究を推進してゆきたい.
|
Strategy for Future Research Activity |
今後はまず,ストリームデータからのオンライン近似計算による負ルールの高速抽出方法の開発に精力的に取り組む予定である.前年までに開発したストリームデータから飽和アイテム集合を高速抽出するためのオンライン近似計算法と,飽和集合からの極小生成子の高速抽出法を基盤として,負ルールの漸近的高速抽出法の開発に取り組んいく予定である.これに関連して,前年度に積み残した抽出した負ルールの評価値に混入する誤差の抑制方法の研究を進める予定でいる.これらの結果を踏まえて,当初から予定していた非可逆圧縮を用いた負ルール集合のオンライン近似計算に基づく抽出法についても研究を進める予定でいる.また同様に,各進度100%の負の相関ルールの抽出と仮説推論との融合する手法について研究を進めていく予定でいる.
|
Causes of Carryover |
平成28年度内に国際会議等に発表する予定であった論文の作成と投稿が遅れた.そのため,発表費用相当額の支出が完了できなかったために,次年度使用額が生じた.
|
Expenditure Plan for Carryover Budget |
上記の論文の研究は完了しており,原稿を現在作成中である.平成29年度前半までに論文審査を合格させ発表を行う予定でいるので,残額はその費用として使用する計画である.
|
Research Products
(6 results)