研究概要 |
本研究課題ではデータマイニングと機械学習による半構造データからの情報融合について研究を行い,本年度は次の成果を得た.本研究の目的は,アルゴリズム理論的観点から研究を展開し,データマイニングと機械学習技術を活用して,大規模な半構造データからの情報抽出と情報融合をするための技術を開発することである.更には,様々な分野における構造化データからの知識発見,情報融合を目指す. 構造化データとして,木構造で表される糖鎖データを対象として,正事例のハードクラスタリングと遺伝的プログラミングによって木構造データの構造的特徴を表す複合的木構造パターンを獲得する手法を前年度提案した.複合的木構造パターンとは,タグ木パターンと呼ばれる木構造パターンの集合である.複合的木構造パターンの説明能力は,それぞれの木構造パターンの説明する木構造データ集合の和集合であるので,1つのデータが複数のクラスタに属することを許すソフトクラスタリングを用いて正事例クラスタを生成する,次の手法を提案した.木構造データの正事例を木の編集距離に基づいてソフトクラスタリングを行い,それぞれの正事例クラスタと負事例集合から遺伝的プログラミングにより,特徴的な木構造パターンを獲得する.それぞれの遺伝的プログラミングで得られた適合度が最も高い特徴的木構造パターンから木構造パターン集合を構成する.また,木構造パターンの質問学習,グラフ構造データの簡潔表現についても成果を得た.
|