2004 Fiscal Year Annual Research Report
機械学習手法による半構造データマイニングと情報抽出
Project/Area Number |
16016275
|
Research Institution | Hiroshima City University |
Principal Investigator |
宮原 哲浩 広島市立大学, 情報科学部, 助教授 (90209932)
|
Co-Investigator(Kenkyū-buntansha) |
内田 智之 広島市立大学, 情報科学部, 助教授 (70264934)
平田 耕一 九州工業大学, 情報工学部, 助教授 (20274558)
久保山 哲二 東京大学, 国際産学共同研究センター, 助手 (80302660)
|
Keywords | 機械学習 / 半構造データマイニング / 情報抽出 / 木構造パターン / タグ木パターン |
Research Abstract |
本研究課題では,機械学習手法による半構造データマイニングと情報抽出について研究を行い,本年度は次の成果を得た. Web空間の爆発的な発展に伴い,インターネット上の大規模分散コンテンツを流通・提供・活用するための手法やシステムの研究開発が求められている.機械学習技術を適用することは,人に優しい情報通信技術やフレンドリーな情報処理システムの開発に有効である.本研究課題では,HTML/XMLファイルなどのWeb文書が半構造性を持つことに注目し,機械学習技術を活用して,半構造データからのデータマイニング技術を発展させ,Webデータから有用なコンテンツを発見する手法,すなわち情報抽出技術を確立することを目的とする. 半構造データから,意味がある知識や情報を抽出するためには,それらを特徴づける木構造パターンを発見することが必要である.半構造Web文書から特徴的な木構造パターンである,縮約可能変数つきの極大頻出なタグ木パターンをすべて生成する手法を提案した. HTML/XMLで記述された半構造化文書は,内部ノードにタグ情報を,葉にはタグ間にある文章を保持した順序木により表現することができる.半構造化文書における単語間の構造の特徴を抽出するために,単語間の連結経路として単語間連結経路パターンを提案し,頻出する単語間連結経路パターンを抽出するデータマイニング手法を開発した. 半構造データの近似マッチング手法を用いたWebページからの情報抽出手法を提案した.二階一般化および頻出単調DNF式の抽出に関して研究を行った.
|