最終年度の26年度は、データベース全体の欠損値を世代継続的な進化型計算手法によりルールベースで順次埋めていこうとすることを特徴とする欠損値推定アルゴリズムの改善と連続値属性へ対応するための拡張を進め、これらの評価実験を行った。属性ごとの推定の困難さの違いに対応した改善をするために、推定に用いるルール集合がカバーできる欠損値の割合の増大方法の検討と推定精度への影響の評価した。また、ビッグデータへの対応の観点から、属性数・レコード数の規模を拡大して、パラーメータの最適化や高速化方法を検討し評価実験を行った。さらに、前年度までに検討してきた人工的に発生させた欠損値を利用した情報保護等の応用として、人工的欠損値を連続値離散化時の境界値付近に用いることでのルールベースでの欠損値推定法の推定効率改善や精度向上に関する手法を検討し、その有効性を評価した。実験結果から人工的欠損値を利用することでの連続値の推定に用いるルール集合のカバーできる欠損値の割合の向上、汎化能力の獲得に関する知見が得られた。 本研究では、相関ルール抽出を組み込んだ世代継続型進化論的計算手法による欠損値推定アルゴリズムの開発を行った。推定は、各欠損値を個々に定めていくのではなく、推定済みの欠損値を用いた状態でルール抽出を行い、既知のデータへの当てはまりを確認しながらデータベース全体の欠損値を順次埋めていくことを特徴としている。また、ルールベースの手法であるため推定のメカニズムの可読化が期待できる。本研究の成果として、欠損値推定方法の提案に加えて従来困難であった欠損値を含むデータからの種々のルール発見方法や人工的欠損値の利用法の提案等によるルールベースの解析方法の提供、欠損値を含むデータへの理解の深化があげられる。
|