2017 Fiscal Year Research-status Report
Statistically Sound Pattern Mining
Project/Area Number |
17K12736
|
Research Institution | The University of Tokyo |
Principal Investigator |
小宮山 純平 東京大学, 生産技術研究所, 助教 (20780042)
|
Project Period (FY) |
2017-04-01 – 2019-03-31
|
Keywords | パターンマイニング / 多重検定 / 統計検定 / FWER / FDR |
Outline of Annual Research Achievements |
データセットから特徴的なパターンを抽出するパターンマイニングはデータマイニング業界で広く研究されている。とくに、エマージングパターンマイニングと呼ばれる2つのデータセットでの出現率の比率が大きいパターンに注目した。このようなパターンは、商品の購買などの判断、対戦ゲームの勝敗など、結果が2つに分かれる分類問題などへの広い応用が考えられる。 既存の多くの研究では「10データ以上あり比率が0.5以上」のようなアドホックなパラメータを与えてパターンマイニングしていたが、なぜ10データというスレッショルドが良いのか、スレッショルドを5データにしたときに統計的に有意性があるのか、もしくはたまたまデータの偏りで起きたかなどを考慮していない問題点があった。本研究では、それぞれの発見されたパターンが有意なのかどうかに関して、全体としての有意性(多重検定の有意性)を保証しつつパターンマイニングをする方法を考えた。多重検定ではいくつかの基準があるが、既存手法ではFamily-wise Error Rate (FWER)と呼ばれる基準が多く用いられる。FWERは誤りを1つでも起こる可能性を所与の水準に抑えている一方、発見できるパターンが少ないというトレードオフがある。申請者は、より多くのパターンを発見できるFalse Discovery Rate (FDR)と呼ばれる誤りの含まれる割合を抑える基準をパターンマイニングで保証できるアルゴリズムを研究した。データマイニングのトップ国際会議であるACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2017)にて論文発表を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
統計的に有意なパターンマイニングに関しては寺田らによるLimitless Arity Multiple-testing Procedure (LAMP)法がFamily-wise Error Rate (FWER)と呼ばれる遺伝子検査などにも使われる厳しい多重検定の保証を行う方法を2013に発表している。FWERは誤りを1つでも起こる可能性を所与の水準に抑えている一方、発見できるパターンが少ないというトレードオフがある。LAMPの研究を行っている北大湊研の研究グループと共同研究を行い、より多くのパターンを発見できるFalse Discovery Rate (FDR)と呼ばれる誤りの含まれる割合を抑える基準をパターンマイニングで保証できるアルゴリズムを研究した。FDRの制御はFWERの制御より技術的に難しいものの、FDRの要求する検定水準を事前にデータセットの一部から推定することによって技術的な問題を解決した。統計の国際会議MCP International Conference on Multiple Comparison Procedures (MCP2017) において口頭発表、またデータマイニングの国際会議ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2017)にて論文発表を行った。とくに後者のKDD2017はデータマイニングのトップ学会であり、初年度から論文を発表できたのは大きな成果と考える。
|
Strategy for Future Research Activity |
FDRをコントロールする成果はこれまでのFWERをコントロールする既存研究よりも多くのパターンを発見できるものの、現状のKDD2017で発表した方法はFDRの要求する検定水準の決定のためデータセットの一部を分離する必要がある。このため、使えるデータセットの量が実質的に減ることや、時系列データのように本質的に分離が難しいデータへの適用ができない問題点がある。このような問題点を解決するため、データを分割せずに適用可能な手法を探る。とくに、選択的推定(selective inference)などのデータ適応的な手法に注目した統計的なパターン発見手法を研究したい。
|
Research Products
(4 results)