研究課題/領域番号 |
17K12736
|
研究種目 |
若手研究(B)
|
配分区分 | 基金 |
研究分野 |
知能情報学
|
研究機関 | 東京大学 |
研究代表者 |
小宮山 純平 東京大学, 生産技術研究所, 助教 (20780042)
|
研究協力者 |
石畠 正和
有村 博紀
西林 孝
湊 真一
前原 貴憲
|
研究期間 (年度) |
2017-04-01 – 2019-03-31
|
研究課題ステータス |
完了 (2018年度)
|
配分額 *注記 |
4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2018年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
2017年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
|
キーワード | パターンマイニング / 統計検定 / 多重検定 / データマイニング / 機械学習 / FDR / アルゴリズム / FWER / 統計数学 |
研究成果の概要 |
パターンマイニングのアルゴリズムは、出現頻度の比率が一定以上大きい組合せ特徴量(パターン)集合を効率的に列挙する。しかし、データの確率的な偏りについては考慮がされず、興味のあるパターンが偶然の偏りによって出てきたものなのかが検証されない。本研究では、誤った発見をする確率に関して統計的保証を満たしたパターンマイニングの手法を提案し、データマイニングのトップ国際会議であるKDD2017において発表を行った。また、統計的保証の頑健性などについて研究を行った。いくつかのパターンがあるときに、そのうちのたまたまうまくいったものを選ぶ出版バイアスがどの程度の大きさになるか定量化することができた。
|
研究成果の学術的意義や社会的意義 |
データマイニングは知識発見を求める分野であるが、発見が統計的にどの程度の確からしさがあるのかは多くの場合考慮されていない。とくに、パターンマイニングはパターン(特徴量)の組合せの中から興味があるものを探すが、パターン数が多い場合には出版バイアスが発生し、得られたパターンが偶然の偏りなのか再現可能なものかの判断がつかない。この現状を鑑みて、本研究は得られたパターンのうち統計的に有意なものを探すアルゴリズムや、出版バイアスがどの程度大きくなりうるのかを定量化することで、データマイニングの知識発見としての健全性を保証するための基礎的な結果が得られたと考える。
|