2015 Fiscal Year Research-status Report
Project/Area Number |
26330277
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
酒井 浩 九州工業大学, 工学(系)研究科(研究院), 教授 (60201513)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | ラフ集合 / ラフ集合非決定情報解析 / 不完全情報 / NIS-Apriori / アプリオリアルゴリズム / データマイニング / ルール生成による機械学習 / プライバシー保護 |
Outline of Annual Research Achievements |
ラフ集合非決定情報解析(Rough Sets Non-deterministic Information Analysis: RNIA)と名付けた枠組みを提案しており、その進展を図り、またその応用も進めた。非決定情報まで処理するNIS-Aprioriアルゴリズムをコアアルゴリズムにし、情報の不完全性に関連する諸問題の解決を進めている。具体的には、(課題1)マイニングの基礎、少数派意見マイニング、(課題2)解析ソフトウェアの改善、ビッグデータへの対応、(課題3)情報の希薄化とプライバシー・データ保護、(課題4)不完全な情報における機械学習と欠損値推定、これら4課題に取り組んでいる。 課題1については下記論文(IDT誌、LNCS誌)において、意思決定支援のためのRNIAの基礎を示した。課題2では、公開したPython版getRNIAソフトウェアの並列化により、処理の高速化とビッグデータへの対応を試みた(下記論文(PCS誌))。また、本ソフトウェアをより汎用化するためにSQL言語によるNIS-Aprioriの書き換えを進め、NIS-Apriori in SQL β版を実現した。SQLは広く普及しており、作成したSQLのprocedureをコピーすれば容易にNIS-AprioriをSQL上で実行できる。これによって、Python版より使用環境が改善され、RNIAのビッグデータへの対応にも繋がると考える。課題4では、統計における最尤推定(サンプルデータが最も起こりやすくなるようにパラメータを推定する)の方針とデータベースにおける関数従属性の考えを取り込み、ルール生成による学習(Learning by Rule Generation)を提案した (下記論文(IEEE版))。これらは、いずれもNIS-Aprioriの機能により新たに取り組むことができるようになった課題であると考える。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
課題2と関連したNIS-Apriori in SQLは、かなり進展した。当初、コマンドプロンプトによる実現を考えていたが、phpMyAdminツールを含む環境Xamppを利用することで作業効率が上がった。SQLの環境でNIS-Aprioriが使えるようになると、SQLの汎用性から見ても都合がよく、種々のシミュレーション実験を行うことも容易になる。今後は、NIS-Apriori in SQLを実験の主たる処理系として研究を進める。 課題4において、ルール生成による学習(Learning by Rule Generation)の枠組みもほぼ固まった。多くの欠損値を含む表においてNIS-Aprioriを用い信頼できるルールを生成し、このルールをできるだけ多く作り出すようにして欠損値の値を推定する。これは教師なし学習であり、自分で閾値の設定を行いながら確実な傾向を認識し、可能な限りその傾向を強化するように動く機械学習になっていると考える。NIS-Aprioriによる信頼できるルールの生成に依存した体系なので、従来にない枠組みになっていると考える。 課題3における情報の希薄化とプライバシー・データ保護についても非決定情報が役に立つと考える。アンケートの際、単一回答の選択をするのではなく複数回答の選択をすることで、回答者自身のプライバシー保護になる。このような複数回答の場合、データ洗浄の手順により従来は除去されたタプルもNIS-Aprioriは処理し、信頼できるルールや可能性ルールとしてデータの傾向を把握できる。 課題1の少数派意見マイニングは現状では出遅れているが、NIS-Apriori in SQLやLearning by Rule Generationの確立などを考慮し、研究はおおむね順調に進展していると自己評価する。
|
Strategy for Future Research Activity |
平成26年度、27年度の進展状況を考慮しながら、引き続きラフ集合非決定情報解析(Rough Sets Non-deterministic Information Analysis: RNIA)に関連する諸問題の研究を進め、研究実績の概要に示した4課題に取り組む。 課題1の少数派意見マイニング、つまり全体のデータにおけるマイニングを行う場合、少数派の傾向(局所的ではあるが、極めて高い相関性を有する)は見落とされてしまう。本課題については、理論的な枠組みを押えている状況であり、もうしばらく時間をかけて取り組む予定である。 課題2において、異なる10件程のデータセットからルール生成実験を行っており、NIS-Apriori in SQL β版、Prolog版、Python版とも(ルールの冗長性の点を除き)同じルールの生成を行っていることを確認した。しかし、現状でSQL版の実行時間が劣る状況もあり、さらなるprocedureの改善が必要である。また、SQLの体系における計算量の検討も進めたいと考える。 課題3で扱う意図的な情報の希薄化(Information Dilution)はプライバシー保護の側面から新たな技術になると考えており、本年度はこの内容をさらに進展させたいと考えている。概要について、学会発表も予定している。 課題4のLearning by Rule GenerationについてもSQLによる実現を目指す。非決定情報表と閾値を入力し新たな非決定情報表を得る。前回の閾値より条件を弱めた閾値を入力しこの過程を繰り返し、最終的に推定された決定情報表とルール集合を得る。あいまいな情報に依存する新たな機械学習の枠組みになると考える。
|