2018 年度実績報告書

発見に関する統計的保証のあるパターンマイニング

研究課題

研究課題/領域番号	17K12736
研究機関	東京大学
研究代表者	小宮山純平東京大学, 生産技術研究所, 助教 (20780042)
研究期間 (年度)	2017-04-01 – 2019-03-31
キーワード	パターンマイニング / 多重検定 / 統計検定 / FDR / アルゴリズム
研究実績の概要	主要な実績としては、(i)KDD2017において発表した統計的な保証のあるパターンマイニング手法、および(ii)発見の出版バイアスに関する論文公開レポジトリarXivでの発表の２つである。パターンマイニングのアルゴリズムは、出現頻度の比率が一定以上大きい組合せ特徴量（パターン）集合を効率的に列挙する。しかし、データの確率的な偏りについては考慮がされていないため、興味のあるパターンのが偶然の偏りによって出てきたものなのか、統計的な有意性があるのかが検証されていない。とくに、特徴量の数が多くなると組合せの数も増えていくため、偏りがたまたま起こる組合せは高確率で存在すると予想される。本研究では、誤った発見をする確率（False Discovery Rate, FDR）に関して統計的保証を満たしたパターンマイニングの手法を提案し、データマイニングのトップ国際会議であるKDD2017において発表を行った。提案手法は、パターンマイニングのstate-of-the-art手法であるLCM法 [Uno+ 2004]を利用することによって計算的な効率を確保しつつ、FDRのコントロールを行う初のアルゴリズムであり、統計的な発見をこれまで知られている手法（LAMP法 [Terada+ 2013]）よりも多く得られることが特長である。提案手法の良さは分類問題のpublic datasetにおける組み合わせパターンの発見で検証した。提案手法のソースコードをオープンソースソフトウェア共有サイトgithubで公開し、再現性の確保などに努めた。 KDD2017での発表の後の発展性としては、統計的保証の頑健性などについて着目した。これは、いくつかのパターンがあるときに、そのうちのたまたまうまくいったものを選ぶ出版バイアスがどの程度の大きさになるか定量化することが重要という考えに基づく。この成果を論文公開レポジトリarXivに投稿した。

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] A Simple Way to Deal with Cherry-picking2018
- 著者名/発表者名
  Junpei Komiyama, Takanori Maehara
- 学会等名
  Computing Research Repository (CoRR), arXiv