2022 Fiscal Year Research-status Report
Machine learning from incomplete information table by rule generation and its application
Project/Area Number |
20K11954
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
酒井 浩 九州工業大学, 大学院工学研究院, 教授 (60201513)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | ルール生成による機械学習 / データマイニング / 表データ解析 / 不完全情報 / 欠損値補完 / アプリオリアルゴリズム / NIS-アプリオリ法 / ラフ集合 |
Outline of Annual Research Achievements |
研究代表者はPawlakのラフ集合とAgrawalのアプリオリ法を融合し,(I) DIS-アプリオリ法 (通常の情報表(DISとよぶ)からルールを生成)と (II) NIS-アプリオリ法 (不完全な情報表 (NISとよぶ) から確実ルールと可能性ルールを生成) を提案・実現している. NIS-アプリオリ法によるルール生成は可能世界意味論に基づく体系であり,可能世界 (可能なDISを意味する) 数が10の100乗を超える場合も存在する.可能な全DISを列挙する手法では指数オーダーの計算が必要になり,ルールの生成は不可能と考えられる.本問題に対して研究代表者は,「可能世界中の特徴的な2つのDISを調べることによりルールを生成できる」ことを証明している.この計算手法は可能世界数に依存しない.実現したNIS-アプリオリはMammographicデータやCongressional Votingデータから容易に確実ルールと可能性ルールを生成した.2つのルール生成アルゴリズムはルール集合に対して健全かつ完全であり,ルールの見落としは無くルール以外の含意式を生成しない.本性質を有するマイニング手法は稀であり,論理の体系を継承していると考える. 今回,「NISからのルールを生成・活用しながら,逐次的に真の情報表DISと真のルールを推定する手法」を提案する.これをルール生成による機械学習とよぶ.本手法は情報表の内容に依存しないため,表で記述される広範囲のデータに適応可能である.不完全な情報表のための今までに無い機械学習の確立とその応用を目指している.2022年度において,本手法の妥当性を保証する欠損値補完とその性質の確認を行った.本手法は表データにおける関数従属性を属性値の関係まで広げており,新たな定義になると考えられる.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
提案するルール生成による機械学習を2つの部分に分けて問題点をさらに詳しく整理した.1番目は自己取得した確実ルール中で最も指標値が高いルールを用いる欠損値補完法の研究,2番目が逐次,欠損値を補完しながら真の情報表DISと真のルールを推定する手法(NISからDISを自己学習する)の研究である. 1番目の欠損値補完の妥当性が学習の精度を保証すると考える.そして,種々の実験を通して補完の精度の特徴付けを把握できた.つまり,補完の精度は確実ルールにおける属性間の相関関係の影響を受けることを確認した.ごく自然な結果であるが,妥当な欠損値補完を行うための要件を実験により実証できた.そして,指標値が高い確実ルールを得るための閾値βをある程度高く設定することで,相関の低い属性についての確実ルールは検出されず欠損値補完の精度が上がった.昨年度に得ていたCongressional Votingデータにおける29欠損値に対して93%の正解率となった属性a1とa5について,改めて相関係数を調べると-0.9で強い負の相関があった. NIS-アプリオリ法では,確実ルールの集合CRULEと可能性ルールの集合PRULE(CRULE⊂PRULE)を計算し,真のDISにおけるルールの近似を行う.欠損値が減少すれば2つの集合は同じ集合に近づく.この性質は自明であり,妥当な欠損値補完によりルール生成による機械学習の機能が実現されると考える. 基礎理論の確立と実験環境の整備が整ったため,今後はアトラクティブな実験結果を発信し,広く広報する段階にあると考える.実行例を示すための動画をhttps://www.mns.kyutech.ac.jp/~sakai/RNIA/にアップロードし公開している.
|
Strategy for Future Research Activity |
2023年度においては,2022年度までに実現した実験環境を使い,2020年度から開始した本研究をまとめる.実験を手計算のシミュレーションで行うことは殆ど不可能であり,Pythonによる実行環境の充実は重要な成果になっている. 2023年度においては,2022年度に定義した欠損値補完に関する性質をさらに詳しく押さえる.表データにおいては,関数従属性による欠損値補完法が知られている.しかし,与えられた関数従属性ではなく,NISから確実ルールを自己生成し欠損値を補完する手順は今までの関数従属性の利用とは異なる.そこで,相関の強い属性に関する確実ルールが存在する性質を属性値関数従属性とよぶことにし,属性値関数従属性と欠損値補完の観点から改めて補完法を考える計画にしている. また,表データに限らずクラスター化されたデータ,時系列データ,ファジイのメンバシップ値データなど多様な異種データから一様にルールを生成する枠組みも検討する.多様なデータにおいて,ルールを記述する記述子を定義し記述子の同値類に相当する情報が与えられれば,データの形式によらず一様にルールを生成できると考えられる.そして,連続値データには離散化の手続きを行うことで,離散値データのみならず連続値データからもルール生成を可能にできると考えられる. 以上をまとめて,(i)データの種類によらず欠損値が無ければ(必要であれば離散化する)ルールを生成し,(ii) 欠損値があれば確実ルールと可能性ルールで真のルールを近似し,(iii) 必要であればルール生成による機械学習により真のルールの推定まで行う体系を構築できると考える.ルール生成による機械学習を通して,多様な問題を統一的に処理する体系の実現を目指し研究を進める.
|
Research Products
(3 results)