2021 Fiscal Year Research-status Report
Machine learning from incomplete information table by rule generation and its application
Project/Area Number |
20K11954
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
酒井 浩 九州工業大学, 大学院工学研究院, 教授 (60201513)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | ルール生成による機械学習 / データマイニング / 表データ解析 / 不完全情報 / 欠損値推定 / アプリオリアルゴリズム / NIS-アプリオリ / ラフ集合 |
Outline of Annual Research Achievements |
研究代表者はPawlakのラフ集合とAgrawalのアプリオリ法を融合し,DIS-アプリオリ法 (通常の情報表(DISとよぶ)からルールを生成)とNIS-アプリオリ法 (不完全な情報表 (NISとよぶ) から確実ルールと可能性ルールを生成) を提案・実現している.NIS-アプリオリ法によるルール生成は可能世界意味論に基づく体系であり,可能世界 (可能なDISを意味する) 数が10の100乗を超える場合も存在する.可能な全DISを列挙する手法では指数オーダーの計算が必要になり,ルールの生成は不可能と考えられる.本問題に対して研究代表者は,「可能世界中の特徴的な2つのDISを調べることによりルールを生成できる」ことを証明している.この計算手法は可能世界数に依存しない. 今回,深層学習のバックプロパゲーションに似た機能をNIS-アプリオリ法に追加し,「NISからのルールを生成・活用しながら,逐次的に真の情報表DISと真のルールを推定する手法」を提案し,これをルール生成による機械学習(Machine Learning by Rule Generation: MLRG)と呼んでいる.通常のルール生成ではNISからのルール生成を行えないが,NIS-アプリオリ法を用いればこの手法を実現できる.直観的には,不完全な状況において,自分自身の特徴を検討・再認識し,逐次的に不完全性を改善していく手続きになっていると考えられ,自己監視学習(Self-supervised Learning)の範疇に含まれると思われる. ルール生成による機械学習は情報表の内容に依存しないため,表で記述される広範囲のデータに適応可能であり,深層学習の離散値版に対応すると考えられる.不完全な情報表のための今までに無い機械学習の確立とその応用を目指している.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
種々の実験を通してMLRGの特徴を次第に把握できた.実験では,DISにランダムに欠損値を追加しNISを作り,このNISにMLRGを応用し,どの程度の推定値が正解になるかを調べた.例えば,属性がA,B,C,D,E,対象xのタプルが (1,2,?,?,4) (?は欠損値)であるとし,NIS-アプリオリ法により下記ルールが得られたとする. Rule1: [A,1]=>[C,2](supportの最小値 minsupp=0.1, accuracyの最小値 minacc=0.6), Rule2: [B,2]&[E,4]=>[C,1](minsupp=0.1, minacc=0.7). いずれのルールも対象xに適用可能であるが,minacc値の高いRule2を用いxの欠損値を1と推定する.その後,タプルを(1,2,1,?,4)に直し,決定属性を変えながらこの手続きを繰り返し,得られたNISとDISの比較により推定値の正解率を調べた.結果,属性間に依存関係があるデータではminacc値が高くなり正解率も高くなった.Congressional Votingデータでは属性a5における29欠損値に対して27推定値が正解となり,93%の正解率となった.一方,元々依存関係が無い属性では正解率は低く,MLRGの手法は効果的に作用しなかった.MLRGの手法をすべてのNISに常に活用できるとは限らないが,実験を通してMLRGの機能「欠損値を含む表においても局所的な属性間の依存関係(具体的にはルール)を検出でき,都合の良い場合には欠損値をほぼ正しく推定できる」を確認できたと考える. 研究室の学生の協力も受けPythonによる実行環境もかなり整えた.整備した環境と実行例を示すための動画をhttps://www.mns.kyutech.ac.jp/~sakai/RNIA/ にアップロードし公開している.
|
Strategy for Future Research Activity |
2022年度においては,2021年度までに実現した実験環境を使い,2021年度に得たMLRGの機能のさらなる確認と活用法を下記の項目に従って検討する.実験を手計算のシミュレーションで行うことは殆ど不可能であり,Pythonによる実行環境の実現は重要な成果である. MLRGによる種々の実験データの解析と効果の把握:2021年度に行った実験に加えて,さらなる実験データを解析し,MLRGの特性把握をおこなう. MLRGが効果的に利用できる場合の把握と推定値の妥当性判定:局所的な属性の依存関係検出がMLRGの基本的機能である.現状では,属性の依存関係をルールに付随する minsupp値とminacc値,特にminacc値によって確認している.minacc値以外の確認手順について検討する. MLRGのルール生成における閾値α,βの調整(minsupp>=α,minacc>=β):閾値の調整により,ルールの個数が増減する.閾値を低くすれば,一般にルール数は増加し欠損値の推定率は上がるものの推定値の正解率は下がる.逆に閾値を高くすれば,一般にルール数は減少し推定率は下がるものの正解率は上がる.この特性を把握しながらデータごとに閾値を都合よく調整する仕組みを検討する. MLRGの実問題への応用:MLRGを一般的な枠組みとして提案し,その実行環境を実現している.表データがあれば,データを操作できる環境にあるため,具体的な実問題への応用を検討する.
|
Research Products
(6 results)