2008 Fiscal Year Annual Research Report
データマイニングと機械学習による半構造データからの情報融合
Project/Area Number |
19500129
|
Research Institution | Hiroshima City University |
Principal Investigator |
宮原 哲浩 Hiroshima City University, 情報科学研究科, 准教授 (90209932)
|
Co-Investigator(Kenkyū-buntansha) |
内田 智之 広島市立大学, 情報科学研究科, 准教授 (70264934)
久保山 哲二 学習院大学, 計算機センター, 准教授 (80302660)
|
Keywords | データマイニング / 機械学習 / 木構造データ / 遺伝的プログラミング |
Research Abstract |
本研究課題ではデータマイニングと機械学習による半構造データからの情報融合について研究を行い,本年度は次の成果を得た.本研究の目的は,アルゴリズム理論的観点から研究を展開し,データマイニングと機械学習技術を活用して,大規模な半構造データからの情報抽出と情報融合をするための技術を開発することである.更には,様々な分野における構造化データからの知識発見,情報融合を目指す. 前年度提案した木構造パターンを用いた糖鎖データからの特徴抽出手法は,ある糖鎖データからは支持率が高い木構造パターンを獲得したが,別の糖鎖データからは支持率が低い木構造パターンしか獲得することができなかった.これは正事例の木構造データが様々な構造をしており,単一の木構造パターンで表現するのは難しいためと考えられる.そこで,木構造データを説明する複合的な木構造パターンをクラスタリングと遺伝的プログラミングによって獲得する手法を提案した.複合的木構造パターンとして,タグ木パターンと呼ばれる木構造パターンの集合を用いた.タグ木パターンの集合が木データとマッチするとは,その集合の少なくとも一つのパターンが木データとマッチするときにいう.木構造データの正事例を木の編集距離に基づいてクラスタリングを行い,それぞれの正事例クラスタと負事例集合から,部分的過程として遺伝的プログラミングにより,特徴的な木構造パターンを獲得する.それぞれの部分的過程で得られた適合度が最も高い特徴的木構造パターンから木構造パターン集合を構成する.また,質問学習,木構造データの圧縮,木カーネル学習についても成果を得た.
|
Research Products
(7 results)