2016 Fiscal Year Research-status Report
Project/Area Number |
26330277
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
酒井 浩 九州工業大学, 大学院工学研究院, 教授 (60201513)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | ラフ集合 / ラフ集合非決定情報解析 / 非決定情報 / データマイニング / NIS-アプリオリアルゴリズム / ルール生成による機械学習 / プライバシー保護 / 情報の希薄化 |
Outline of Annual Research Achievements |
ラフ集合非決定情報解析(Rough Non-deterministic Information Analysis: RNIA)と名付けた枠組みを提案しており、その進展を図り応用を進めた。非決定情報(例えば、真の値はA、B、Cのいずれかである)まで処理するNIS-アプリオリアルゴリズムをコアアルゴリズムにし、情報の不完全性に関連する諸問題の解決を進めている。具体的には、(課題1)マイニングの基礎、少数派意見マイニング、(課題2)解析ソフトウェアの改善、ビッグデータへの対応、(課題3)情報の希薄化とプライバシー・データ保護、(課題4)不完全な情報に基づく機械学習と欠損値推定、これら4課題に取り組んでいる。 (課題1)については解決の手順を確認し、論文作成を検討している。 (課題2)についてはNIS-アプリオリSQL版(NIS-Apriori in SQL)を雑誌論文(LNAI9920,Springer)に発表した。UCI機械学習レポジトリのCar EvaluationやCredit Approvalデータセットからも容易にルールを生成できた。 (課題3)についてはRNIAの機能によるプライバシー保護付アンケート法を雑誌論文(IEEE BigData2016)に発表した。選択式アンケートでは通常1選択を行うが、提案するアンケート法は複数選択(非決定情報と同じ)により回答内容の曖昧化を図る。RNIAではこのように曖昧化されたアンケートデータも解析できる。 (課題4)については雑誌論文(Studies in Computational Intelligence,Springer)と(LNAI,Springer)においてルール生成による機械学習(Machine Learning by Rule Generation: MLRG)を提案しSQL版のプロトタイプを実現した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究における最も重要な課題であるNIS-アプリオリSQL版の実現について、実行例を通してその内容を公開できる状況になった。既に、実行例のログファイルをウェブページに公開している。 SQL版が正しく実現されていることを確認するために、以前に実現したNIS-アプリオリProlog版と比較した。現状で、提案する確実ルールと可能性ルールを計算できるシステムは本研究室以外には無いと考えられるためである。その結果、約10データセットからのマイニングにおいていずれも同一のルール生成を確認できた。独立して実現した2つのシステムが同一のルールを生成したことで、2システムは正しく実現されていると考える。SQL版はProlog版のリスト処理を必要としないため、より大規模なデータにも対応できると考える。 一方、SQL版の実現により他に構想していた応用課題の実現も進めている。ルール生成による機械学習MLRGでは、欠損値を含む表データにおいて確実ルールを生成し、できるだけ多くの確実ルールが生じるように欠損値を推定する。これは、統計学における最尤推定法に相当する欠損値推定法になると考える。逐次的にルール生成、欠損値推定を行うことにより最終的に欠損値を含まない確定表データを学習することができる。UCIのMammographic、Congressional Votingデータセットでは2、3度の繰り返しで確定表データを得た。IJCRS2017国際会議において本処理系の実現について発表予定である。 NIS-アプリオリSQL版やルール生成による機械学習の確立などを考慮し、研究はおおむね順調に進展していると自己評価する。
|
Strategy for Future Research Activity |
4つの課題の進展により、研究の推進を図る。 (課題1)における少数派意見マイニングでは、少数派の傾向(局所的ではあるが、極めて高い相関性を有する)が見落とされてしまう問題を扱う。多数派の結論は少数派の結論に矛盾するために対象全体を扱う場合、少数派の相関性は必然的に下がる。本問題に対して理論的な構想を既に押えており、目的集合のためのNIS-アプリオリアルゴリズム(NIS-Apriori algorithm with a target set)の枠組みを提案し、SQLによる処理系実現を図る。 (課題2)におけるNIS-アプリオリSQL版の実現はほぼ完了しており、処理の高速化と計算量の側面をさらに検討したい。実現してみて、nrdfファイルと名付けたファイルのサーチがルール生成時間の大部分を占めることを把握した。このファイルサーチを可能な限り抑えるSQL手続きの改善により、処理の高速化を図ることができると考える。 (課題3)で扱う意図的な情報の希薄化(Information Dilution)はプライバシー保護の側面から新たな技術になると考える。やはり、SQL版の実現を進める。プライバシー・データ保護において、k-匿名性とも関連する非決定情報の応用は重要でありRNIAはいくつかの有益な環境を提供すると考える。 (課題4)のルール生成による機械学習MLRGでは、SQL版プロトタイプもほぼ完成しており具体的に応用を進める。ディープラーニングは特に画像の認識に有効であるが、ルール生成による機械学習はカテゴリカルな値から成る表データで表現される対象の識別に有効と考える。あいまいな情報に依存する新たな機械学習の枠組みになると考える。
|