2018 Fiscal Year Annual Research Report
Statistically Sound Pattern Mining
Project/Area Number |
17K12736
|
Research Institution | The University of Tokyo |
Principal Investigator |
小宮山 純平 東京大学, 生産技術研究所, 助教 (20780042)
|
Project Period (FY) |
2017-04-01 – 2019-03-31
|
Keywords | パターンマイニング / 多重検定 / 統計検定 / FDR / アルゴリズム |
Outline of Annual Research Achievements |
主要な実績としては、(i)KDD2017において発表した統計的な保証のあるパターンマイニング手法、および(ii)発見の出版バイアスに関する論文公開レポジトリarXivでの発表の2つである。 パターンマイニングのアルゴリズムは、出現頻度の比率が一定以上大きい組合せ特徴量(パターン)集合を効率的に列挙する。しかし、データの確率的な偏りについては考慮がされていないため、興味のあるパターンのが偶然の偏りによって出てきたものなのか、統計的な有意性があるのかが検証されていない。とくに、特徴量の数が多くなると組合せの数も増えていくため、偏りがたまたま起こる組合せは高確率で存在すると予想される。本研究では、誤った発見をする確率(False Discovery Rate, FDR)に関して統計的保証を満たしたパターンマイニングの手法を提案し、データマイニングのトップ国際会議であるKDD2017において発表を行った。 提案手法は、パターンマイニングのstate-of-the-art手法であるLCM法 [Uno+ 2004]を利用することによって計算的な効率を確保しつつ、FDRのコントロールを行う初のアルゴリズムであり、統計的な発見をこれまで知られている手法(LAMP法 [Terada+ 2013])よりも多く得られることが特長である。提案手法の良さは分類問題のpublic datasetにおける組み合わせパターンの発見で検証した。提案手法のソースコードをオープンソースソフトウェア共有サイトgithubで公開し、再現性の確保などに努めた。 KDD2017での発表の後の発展性としては、統計的保証の頑健性などについて着目した。これは、いくつかのパターンがあるときに、そのうちのたまたまうまくいったものを選ぶ出版バイアスがどの程度の大きさになるか定量化することが重要という考えに基づく。この成果を論文公開レポジトリarXivに投稿した。
|