研究概要 |
本研究の目標は,互いに関連する複数のパターン発見タスクに効果的に対処するために,データとパターンの表現形式を自動的に変更する新しいデータマイニング手法を開発し,計算機システムとして実装して人工・実データでその有効性を示すことである.本年度は主に,昨年度開発した拡張MDL原理を用いるルール群発見・分類学習用マルチタスクデータマイニング手法の有効性を調べて改良・拡張し,コルモゴロフ複雑性に基づく情報量距離を用いるクラスタリング用マルチタスクデータマイニング手法を開発してその有効性を調べた.前者に関してはまず,昨年度開発した拡張MDL基準に基づく選言標準形概念用の手法を,符号長の計算などを厳密に見直すことで改良した.次に改良した手法を多数の人工データおよび機械学習標準データ集合などに適用して正答率・ノイズ耐性などに関する有効性を示した.後者に関してはまず,文字列などシーケンスデータを対象とし,LZW圧縮器を用いる近似情報量距離において,自タスクと他タスクにおける関連事例集合を反復的に求めて用いる新しい情報量距離を考案した.次にこの情報量距離を用いるクラスタリング手法を開発し,人工データ,単言語・多言語のテキストデータ,ウェブデータなどに適用してその有効性を確認した.さらに例分布を多様体としてとらえ重心などの幾何学的性質と例ペアの所属クラスに関する制約を用いるマルチタスクデータマイニング用の次元縮退手法も開発し,人工データやテキストデータに適用してその有効性を確認した
|