発見に関する統計的保証のあるパターンマイニング

研究課題

研究課題/領域番号	17K12736
研究種目	若手研究(B)
配分区分	基金
研究分野	知能情報学
研究機関	東京大学
研究代表者	小宮山純平東京大学, 生産技術研究所, 助教 (20780042)
研究協力者	石畠正和有村博紀西林孝湊真一前原貴憲
研究期間 (年度)	2017-04-01 – 2019-03-31
研究課題ステータス	完了 (2018年度)
配分額 *注記	4,030千円 (直接経費: 3,100千円、間接経費: 930千円) 2018年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円) 2017年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
キーワード	パターンマイニング / 統計検定 / 多重検定 / データマイニング / 機械学習 / FDR / アルゴリズム / FWER / 統計数学
研究成果の概要	パターンマイニングのアルゴリズムは、出現頻度の比率が一定以上大きい組合せ特徴量（パターン）集合を効率的に列挙する。しかし、データの確率的な偏りについては考慮がされず、興味のあるパターンが偶然の偏りによって出てきたものなのかが検証されない。本研究では、誤った発見をする確率に関して統計的保証を満たしたパターンマイニングの手法を提案し、データマイニングのトップ国際会議であるKDD2017において発表を行った。また、統計的保証の頑健性などについて研究を行った。いくつかのパターンがあるときに、そのうちのたまたまうまくいったものを選ぶ出版バイアスがどの程度の大きさになるか定量化することができた。
研究成果の学術的意義や社会的意義	データマイニングは知識発見を求める分野であるが、発見が統計的にどの程度の確からしさがあるのかは多くの場合考慮されていない。とくに、パターンマイニングはパターン（特徴量）の組合せの中から興味があるものを探すが、パターン数が多い場合には出版バイアスが発生し、得られたパターンが偶然の偏りなのか再現可能なものかの判断がつかない。この現状を鑑みて、本研究は得られたパターンのうち統計的に有意なものを探すアルゴリズムや、出版バイアスがどの程度大きくなりうるのかを定量化することで、データマイニングの知識発見としての健全性を保証するための基礎的な結果が得られたと考える。

報告書

(3件)

2018 実績報告書研究成果報告書 ( PDF )
2017 実施状況報告書

研究成果
(5件)

すべて 2018 2017

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (4件) (うち国際学会 2件)

[雑誌論文] Statistical Emerging Pattern Mining with Multiple Testing Correction2017
- 著者名/発表者名
  Junpei Komiyama and Masakazu Ishihata and Hiroki Arimura and Takashi Nishibayashi and Shin-ichi Minato
- 雑誌名
  
  Proceedings of the 23rd {ACM} {SIGKDD} International Conference on Knowledge Discovery and Data Mining
  
  巻: 1 ページ: 897-906
- DOI
  10.1145/3097983.3098137
- 関連する報告書
  2017 実施状況報告書
- 査読あり
[学会発表] A Simple Way to Deal with Cherry-picking2018
- 著者名/発表者名
  Junpei Komiyama, Takanori Maehara
- 学会等名
  Computing Research Repository (CoRR), arXiv
- 関連する報告書
  2018 実績報告書
[学会発表] Statistical Emerging Pattern Mining with Multiple Testing Correction2017
- 著者名/発表者名
  Junpei Komiyama and Masakazu Ishihata and Hiroki Arimura and Takashi Nishibayashi and Shin-ichi Minato
- 学会等名
  International Conference on Knowledge Discovery and Data Mining
- 関連する報告書
  2017 実施状況報告書
- 国際学会
[学会発表] Controlling FWER and FDR in emerging pattern mining2017
- 著者名/発表者名
  Junpei Komiyama and Masakazu Ishihata and Hiroki Arimura and Takashi Nishibayashi and Shin-ichi Minato
- 学会等名
  International Conference on Multiple Comparison Procedures
- 関連する報告書
  2017 実施状況報告書
- 国際学会
[学会発表] Statistical Emerging Pattern Mining with Multiple Testing Correction2017
- 著者名/発表者名
  Junpei Komiyama
- 学会等名
  北海道大学離散構造処理系プロジェクトセミナー
- 関連する報告書
  2017 実施状況報告書

発見に関する統計的保証のあるパターンマイニング

研究代表者

小宮山 純平 東京大学, 生産技術研究所, 助教 (20780042)

4,030千円 (直接経費: 3,100千円、間接経費: 930千円)

報告書

研究成果

[雑誌論文] Statistical Emerging Pattern Mining with Multiple Testing Correction2017

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] A Simple Way to Deal with Cherry-picking2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] Statistical Emerging Pattern Mining with Multiple Testing Correction2017

著者名/発表者名

学会等名

関連する報告書

[学会発表] Controlling FWER and FDR in emerging pattern mining2017

著者名/発表者名

学会等名

関連する報告書

[学会発表] Statistical Emerging Pattern Mining with Multiple Testing Correction2017

著者名/発表者名

学会等名

関連する報告書

小宮山純平東京大学, 生産技術研究所, 助教 (20780042)