研究課題/領域番号 |
20K11954
|
研究機関 | 九州工業大学 |
研究代表者 |
酒井 浩 九州工業大学, 大学院工学研究院, 教授 (60201513)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
キーワード | データマイニング / ルール生成 / 不完全情報 / アプリオリアルゴリズム / NIS-アプリオリ / 可能世界意味論 / ルール生成の完全性 / ルール生成による機械学習 |
研究実績の概要 |
研究代表者はPawlakのラフ集合とAgrawalのアプリオリ法を融合し,(I) DIS-アプリオリ法(通常の情報表(DISとよぶ)からルールを生成)と (II) NIS-アプリオリ法(不完全な情報表(NISとよぶ)から確実ルールと可能性ルールを生成)を提案・実現している. NIS-アプリオリ法によるルール生成は可能世界意味論に基づく体系であり,可能世界(可能なDISを意味する)数が10の100乗を超える場合も存在する.可能な全DISを列挙する手法では指数オーダーの計算が必要になり,DISの列挙によるルールの生成は不可能と考えられる.本問題に対して研究代表者は,「可能世界中の特徴的な2つのDISを調べることによりルールを生成できる」ことを証明している.この計算手法は可能世界数に依存しない.実現したNIS-アプリオリはMammographicデータやCongressional Votingデータから容易に確実ルールと可能性ルールを生成した.2つのルール生成アルゴリズムはルール集合に対して健全かつ完全であり,ルールの見落としは無くルール以外の含意式を生成しない.本性質を有するマイニング手法は稀であり,論理の体系を継承していると考える. 今回,深層学習のバックプロパゲーションに似た機能をNIS-アプリオリ法に追加し,「NISからのルールを生成・活用しながら,逐次的に真の情報表DISと真のルールを推定する手法」を提案する.これをルール生成による(不完全情報表からの)機械学習とよぶ. 本手法は情報表の内容に依存しないため,表で記述される広範囲のデータに適応可能であり,深層学習の離散値版に対応すると考えられる.不完全な情報表のための今までに無い機械学習の確立とその応用を目指している.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2020年度には,ルール生成による機械学習のために次の課題に取り組んだ.(課題I) 得られたルールを用いる欠損値推定(発表論文1,5,6,FIM2020招待講演),(課題II) 連続値データの離散化・粒状化とデスクリプタの定義の問題(ICIS2020招待講演),(課題III) NIS-アプリオリの改善とPython言語による実行環境の改善(発表論文2,5). 課題Iでは,得られたルールから結論の値を推定する手法を示し,Python言語により実行環境を実現した.欠損値推定には確実ルールを用い,得られた複数の確実ルールが適用可能であれば正確度(accuracy値)の最も高い確実ルールの結論により欠損値の推定を行うようにした.本手法では用いたルールが結論付けの根拠であり,結論付けの透明性が高い.そして,近年のAIにおける結論付けのブラックボックス化を補完するものと考える.欠損値を含む属性を逐次,決定属性に置き換え,先の推定手法を用いればルール生成による機械学習の一実現になる.現在,実験を行いながら推定の精度を検討している. 課題IIでは,ルールを記述するためのデスクリプタと連続値データの離散化の観点に取り組んだ.離散化により異なるデータが同一のデータに集約される場合があることを確認し,頻度付きDISにおけるZDIS-アプリオリを実現した.対象数17898のHtru2データセットは離散化により対象数134の頻度付きデータに等価変換され,同じルールの生成を維持しながらルール生成時間は17898個の場合の5%に減少できた. 課題IIIでは,今までSQLで記述していた実行環境をPythonに変更した.NIS-アプリオリの実現では,大規模なリスト処理を行うため当初SQLを用いていたが,Pythonでも不都合なく大規模なリスト処理が可能であるとわかり,この変更を行い実行環境の整備を行った.
|
今後の研究の推進方策 |
2021年度には,先の課題Iで示した手法「逐次的に決定属性を変化させ,確実ルールを生成しその属性における欠損値を推定する」を検討し,種々の実験を通してルール生成による機械学習を進展させる. 実際の実験では,(A) いくつかのDISからランダムに欠損値を追加しNISを作る.(B) このNISに機械学習を適用し逐次的にDISを推定する.(C) 得られたDISと元のDISから本機械学習の学習精度を計算する.この実験を通して,提案の妥当性の保証や新たな課題の確認等に繋げたいと考える. また,Pythonによる実行環境が整ってきており,実行の動画をウェブ上に公開する予定でいる.既にSQLのスクリーンショットを公開しているが,Python実行の動画はNIS-アプリオリやルール生成による機械学習の内容を効果的に説明できると考える. さらに,先の課題IIで示した離散化による対象の同一化現象の性質にも取り組みたい.この性質はビッグデータにおけるデータサイズの圧縮に応用でき,ラフ集合における粒状性との関係が深い.デスクリプタの仕様により同一データの階層化とその性質を利用するデータマイニングが可能になると考える.
|