研究概要 |
多視点・多粒度型知識発見のためのデータマイニング手法として,データの重要部分を確率的クラスタリングにより要約し,情報量規準をもとに色相を割り振る方法を考案した.この方法は,医療検査データで有効性が示されたわれわれのプロトタイプラインの拡張となっている.この方法の有効性をテキスト画像データであるウェブページデータを対象として調べ,Googleに比較して再現率,適合率,および発見時間の全てにおいて優れていることを示した. この手法を改良・発展して最終手法とし,ウェブページデータやネットワーク侵入データなどに適用してその有効性を定量的に評価した.ウェブページデータを用いた実験は,多数のウェブページの内容をA4用紙1枚の表示結果から把握する課題について行った.一定時間に多数の質問を課す形式のため,評価指標としては被験者たちの正解数を採用し,Googleに比較して約35%増加することに成功した.画像やキーワードに関する個別処理は必要であるものの,知識発見のために適切な複数の視点と粒度で情報を可視化するという当初の目的を達成できたと考える. ネットワーク侵入データを用いた実験は,ウェブページへのアクセス履歴からの予測問題について行った.不正アクセス検知に関する再現率・適合率,珍しい不正アクセスの発見,可視化結果の見易さなどに関して良好な結果を得た.研究過程において,多目的型探索手法,情報量評価指標,および述語データ用クラスタリングなども開発してそれらの有効性を確認した その他,仏国カン大学と協力してアイテム集合トランザクションデータ可視化手法を開発し,良好な結果を得た.サッカーに代表される各種時空間データへの適用も進め,可視化と知識発見の両面で成果をあげた.
|