現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
種々の実験を通してMLRGの特徴を次第に把握できた.実験では,DISにランダムに欠損値を追加しNISを作り,このNISにMLRGを応用し,どの程度の推定値が正解になるかを調べた.例えば,属性がA,B,C,D,E,対象xのタプルが (1,2,?,?,4) (?は欠損値)であるとし,NIS-アプリオリ法により下記ルールが得られたとする. Rule1: [A,1]=>[C,2](supportの最小値 minsupp=0.1, accuracyの最小値 minacc=0.6), Rule2: [B,2]&[E,4]=>[C,1](minsupp=0.1, minacc=0.7). いずれのルールも対象xに適用可能であるが,minacc値の高いRule2を用いxの欠損値を1と推定する.その後,タプルを(1,2,1,?,4)に直し,決定属性を変えながらこの手続きを繰り返し,得られたNISとDISの比較により推定値の正解率を調べた.結果,属性間に依存関係があるデータではminacc値が高くなり正解率も高くなった.Congressional Votingデータでは属性a5における29欠損値に対して27推定値が正解となり,93%の正解率となった.一方,元々依存関係が無い属性では正解率は低く,MLRGの手法は効果的に作用しなかった.MLRGの手法をすべてのNISに常に活用できるとは限らないが,実験を通してMLRGの機能「欠損値を含む表においても局所的な属性間の依存関係(具体的にはルール)を検出でき,都合の良い場合には欠損値をほぼ正しく推定できる」を確認できたと考える. 研究室の学生の協力も受けPythonによる実行環境もかなり整えた.整備した環境と実行例を示すための動画をhttps://www.mns.kyutech.ac.jp/~sakai/RNIA/ にアップロードし公開している.
|