2014 Fiscal Year Research-status Report
Project/Area Number |
26330277
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
酒井 浩 九州工業大学, 工学(系)研究科(研究院), 教授 (60201513)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | ラフ集合 / 粒状計算 / ラフ集合非決定情報解析 / 少数派ルールマイニング / ラフ集合欠損値推定 / ラフ集合機械学習 / 並列化NIS-Aprioriアルゴリズム / NIS-Aprioriアルゴリズムの完全性 |
Outline of Annual Research Achievements |
ラフ集合非決定情報解析 (RNIA: Rough Non-deterministic Information Analysis) と名付けた枠組みの下で、種々のデータ解析手法とその応用について研究してきた。今回、新たに4つの問題点をRNIAに組込み、RNIAの強化を進めている。順次、現状での研究実績を列挙する。 (問題点1:少数派ルールのマイニング) 局所的に見て特徴的な含意式を少数派ルールと名付け、その生成手法を検討している。少数である理由のために、少数派ルールを通常の生成手法で見つけることは難しい。既に提案されているImbalanced dataやData with rarityの枠組みと関連させながら研究を進めている。 (問題点2:実データ、ビッグデータへの対応) 欠損値を含む対象数2000、属性数50程度のアンケートデータから確実ルール、可能性ルールの生成を行った。また、処理の高速化のために、提案するNIS-Aprioriアルゴリズムの並列化を図り、Spark環境を用いた実験システムの一部を作成、並列化の効果を確認した。 (問題点3:情報の意図的な不完全性化) 情報の希薄化 (Information Dilution) と名付けた枠組みを提案しており、この枠組みの応用を進めている。NIS-Aprioriアルゴリズムを用いると、表に不完全性を追加しても追加前と同様のルールを生成できる。ルールを保存しながら、データの曖昧化を図ることができ、セキュリティやプライバシー保護に応用できると考える。 (問題点4:ラフ集合欠損値推定)NIS-Aprioriアルゴリズムを用い確実ルールを生成し、確実ルールがより起こりやすくなるように欠損値を推定する手法を検討している。本手法は、統計学における最尤推定の考え方をラフ集合に導入したものであり、不完全な情報表における機械学習の核になると考えている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
ラフ集合非決定情報解析に関連する諸問題として4つの問題点を挙げ、これらを4年間の研究課題にしている。本報告書は初年度の状況を報告するものであり、研究実績の概要に記載した内容も研究初期段階の報告になっている。 問題点1では、双対する2つの少数派グループがある場合に、2つのグループにおける頻度分布を最も違わせる属性 (識別化属性) を取出し、2つのグループを識別化属性により相対的に特徴付ける検討をしている。しかし、まだ提案の域であり、多方面から問題1の解決を進めている。初期の成果をJACIII誌とソフトサイエンスワークショップで発表している。 問題点2については、NIS-Aprioriアルゴリズムの並列化を検討している。今までのNIS-Aprioriでは、ルールの候補になる含意式のリストを用意し逐次、含意式の指標値を計算する。並列化では、含意式のリストをコアプロセッサの数に分割し、並行して指標値の計算を行わせる。公開されている並列化環境ツールSparkを用いて実験システムの一部を実現し、並列化の効果を検証している。また、成果をSCIS2014国際会議とFSS2014学会で発表している。並列化の研究については、研究協力者の取組によるものが大きい。 問題点3については研究の順序の関係で、まだ新たな取組を行っていない。問題点4では欠損値推定の枠組みがほぼ整い、今後、実験システムの構築と実データに基づく検証を行う予定である。 上記、現状を列挙した。達成度については、おおむね順調に進展している、と自己評価する。
|
Strategy for Future Research Activity |
問題点1から問題点4まで、短期的には学会、国際会議への投稿に向けて研究を進め、中長期的には論文誌での発表に向けて研究を進める。 問題点1では、識別化属性による特徴付けの他にも、提案しているNIS-Aprioriアルゴリズムに新たな機能を追加することで、その解決を図りたいと考えている。通常、NIS-Aprioriアルゴリズムでは多数派ルールの取出しを行うが、興味のない対象の除去を逐次的に行い少数派を浮き上がらせることができると考え、この機能の実現を考慮している。問題点2については、コアプロセッサ数の自動判別機能と新たな実験結果を9月に国際会議で発表予定である。また、ビッグデータを考慮するとSQLに基づく実験システムが望まれるためにSQL言語によるNIS-Aprioriアルゴリズムの実現を検討している。問題点4については、NIS-Aprioriアルゴリズムを核にした機械学習への展開を目指しており、7月にその成果を発表予定である。 ラフ集合はポーランドの数理論理学関係のグループが提案し、データマイニングとの関係から広く知られるようになっている。従って、ラフ集合にはデータ解析の枠組みだけでなく数学的な側面も存在する。通常のデータマイニングでは、アルゴリズムの完全性に言及する内容が余り見当たらないが、NIS-Aprioriアルゴリズムでは完全性 (本アルゴリズムは定義されたルールを過不足なく生成する) が成立する。本性質をIIAI-AAI2014国際会議で発表している。他の研究に見られないこのような数学的側面もさらに研究の対象にしたいと考える。
|