• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2017 年度 実施状況報告書

発見に関する統計的保証のあるパターンマイニング

研究課題

研究課題/領域番号 17K12736
研究機関東京大学

研究代表者

小宮山 純平  東京大学, 生産技術研究所, 助教 (20780042)

研究期間 (年度) 2017-04-01 – 2019-03-31
キーワードパターンマイニング / 多重検定 / 統計検定 / FWER / FDR
研究実績の概要

データセットから特徴的なパターンを抽出するパターンマイニングはデータマイニング業界で広く研究されている。とくに、エマージングパターンマイニングと呼ばれる2つのデータセットでの出現率の比率が大きいパターンに注目した。このようなパターンは、商品の購買などの判断、対戦ゲームの勝敗など、結果が2つに分かれる分類問題などへの広い応用が考えられる。
既存の多くの研究では「10データ以上あり比率が0.5以上」のようなアドホックなパラメータを与えてパターンマイニングしていたが、なぜ10データというスレッショルドが良いのか、スレッショルドを5データにしたときに統計的に有意性があるのか、もしくはたまたまデータの偏りで起きたかなどを考慮していない問題点があった。本研究では、それぞれの発見されたパターンが有意なのかどうかに関して、全体としての有意性(多重検定の有意性)を保証しつつパターンマイニングをする方法を考えた。多重検定ではいくつかの基準があるが、既存手法ではFamily-wise Error Rate (FWER)と呼ばれる基準が多く用いられる。FWERは誤りを1つでも起こる可能性を所与の水準に抑えている一方、発見できるパターンが少ないというトレードオフがある。申請者は、より多くのパターンを発見できるFalse Discovery Rate (FDR)と呼ばれる誤りの含まれる割合を抑える基準をパターンマイニングで保証できるアルゴリズムを研究した。データマイニングのトップ国際会議であるACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2017)にて論文発表を行った。

現在までの達成度 (区分)
現在までの達成度 (区分)

1: 当初の計画以上に進展している

理由

統計的に有意なパターンマイニングに関しては寺田らによるLimitless Arity Multiple-testing Procedure (LAMP)法がFamily-wise Error Rate (FWER)と呼ばれる遺伝子検査などにも使われる厳しい多重検定の保証を行う方法を2013に発表している。FWERは誤りを1つでも起こる可能性を所与の水準に抑えている一方、発見できるパターンが少ないというトレードオフがある。LAMPの研究を行っている北大湊研の研究グループと共同研究を行い、より多くのパターンを発見できるFalse Discovery Rate (FDR)と呼ばれる誤りの含まれる割合を抑える基準をパターンマイニングで保証できるアルゴリズムを研究した。FDRの制御はFWERの制御より技術的に難しいものの、FDRの要求する検定水準を事前にデータセットの一部から推定することによって技術的な問題を解決した。統計の国際会議MCP International Conference on Multiple Comparison Procedures (MCP2017) において口頭発表、またデータマイニングの国際会議ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2017)にて論文発表を行った。とくに後者のKDD2017はデータマイニングのトップ学会であり、初年度から論文を発表できたのは大きな成果と考える。

今後の研究の推進方策

FDRをコントロールする成果はこれまでのFWERをコントロールする既存研究よりも多くのパターンを発見できるものの、現状のKDD2017で発表した方法はFDRの要求する検定水準の決定のためデータセットの一部を分離する必要がある。このため、使えるデータセットの量が実質的に減ることや、時系列データのように本質的に分離が難しいデータへの適用ができない問題点がある。このような問題点を解決するため、データを分割せずに適用可能な手法を探る。とくに、選択的推定(selective inference)などのデータ適応的な手法に注目した統計的なパターン発見手法を研究したい。

  • 研究成果

    (4件)

すべて 2017

すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (3件) (うち国際学会 2件)

  • [雑誌論文] Statistical Emerging Pattern Mining with Multiple Testing Correction2017

    • 著者名/発表者名
      Junpei Komiyama and Masakazu Ishihata and Hiroki Arimura and Takashi Nishibayashi and Shin-ichi Minato
    • 雑誌名

      Proceedings of the 23rd {ACM} {SIGKDD} International Conference on Knowledge Discovery and Data Mining

      巻: 1 ページ: 897--906

    • DOI

      10.1145/3097983.3098137

    • 査読あり
  • [学会発表] Statistical Emerging Pattern Mining with Multiple Testing Correction2017

    • 著者名/発表者名
      Junpei Komiyama and Masakazu Ishihata and Hiroki Arimura and Takashi Nishibayashi and Shin-ichi Minato
    • 学会等名
      International Conference on Knowledge Discovery and Data Mining
    • 国際学会
  • [学会発表] Controlling FWER and FDR in emerging pattern mining2017

    • 著者名/発表者名
      Junpei Komiyama and Masakazu Ishihata and Hiroki Arimura and Takashi Nishibayashi and Shin-ichi Minato
    • 学会等名
      International Conference on Multiple Comparison Procedures
    • 国際学会
  • [学会発表] Statistical Emerging Pattern Mining with Multiple Testing Correction2017

    • 著者名/発表者名
      Junpei Komiyama
    • 学会等名
      北海道大学離散構造処理系プロジェクトセミナー

URL: 

公開日: 2018-12-17  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi