研究概要 |
本研究の目的は,アルゴリズム的に正当性を保証する数値データからの知識発見手法を構築することである.この達成のため,まず知識発見を誤差という付加尺度を持つ離散量からの学習として定式化し,学習可能性を理論的に解析した.学習に用いるデータをユークリッド空間での超立方体として捉え,そこからコンパクト集合を学習するアルゴリズムを構築した.その結果,この学習過程にフラクタル性が潜んでいることを発見し,理論的解析によって,学習可能なフラクタルやコンパクト集合のクラスを明らかにした.さらに,誤差が次第に小さくなっていくという観測によるデータの獲得過程が,実数値データを2進数でコーディングする過程と類似することに着目し,この観点から知識発見を定式化した.その結果,2つの実数値データ集合間の類似度を計算論的に測ることに成功し,新規の尺度として符号化ダイバージェンスを提案した.さらにこの結果を発展させ,計算可能性をアルゴリズム的に保証した知識発見のための尺度として,グレイ符号とよばれる符号化法に基づくグレイ符号化ダイバージェンスを提案した.最近傍法によるクラス分類問題に適用することで,性能を定量的に評価し,その有効性を確認した.さらに,符号化ダイバージェンスを一般化することで,クラスタリングの結果を測る新規の尺度としてMCLを提案した.そして,MCLをクラスタリングの基準として採用し,グレイ符号化のもとで最適化問題を解くことで,高速かつ頑健なクラスタリングを実現した.また,頻出パターンマイニングに用いられている代数的手法である形式概念解析を用いることで,データがなす束構造を有効に利用し,離散値・連続値混在データからの半教師あり学習手法を提案した.これらの提案手法は,これまで統計学を基礎としてきた機械学習・知識発見分野に新たな観点を提供する.
|