研究概要 |
本研究課題では構造的データに潜む知識を効果的に発見するためのデータマイニングと機械学習について研究を行った.本研究の目的は,非均質で構造化された大規模なデータに潜む多様な知識の発見に焦点を当てて,必要とされる構造的知識を発見するためのデータマイニングと機械学習における新しい基盤技術を開発することである.本年度は構造的データとして木構造データを対象にした機械学習に重点をおき,次の成果を得た. クラスタリングと進化的手法(遺伝的プログラミング)を用いて,複合的木構造パターンを学習する方法を提案した.タグ木パターンと呼ぶ木構造パターンの集合を,統合的なパターンとして扱う.タグ木パターンの構造的変数には任意の木を代入できる.タグ木パターン集合が木にマッチするとは,その集合の少なくとも一つのパターンがその木にマッチするときにいう.提案手法では,正データ間の木の編集距離と多次元尺度法に基づいて,正データのクラスタ数を決定する,正データをクラスタリングし,それぞれのクラスタと負データを合わせたデータに対して遺伝的プログラミングの部分過程を走らせて,各部分過程における最良の個体を統合して最終的な仮説を生成する.提案手法を糖鎖データに対して適用し,特徴的な複合的木構造パターンを獲得した. 無順序木に対する新しい距離尺度Broom Distanceと高速な計算アルゴリズムを提案した.また,木構造を2分木コードとよぶ文字列に変換して,文字列の編集距離により,木の編集距離を近似するアルゴリズムを提案した.
|