最適パターン発見に基づく大規模半構造データからの知的情報獲得システムの開発
Project/Area Number |
16016266
|
Research Category |
Grant-in-Aid for Scientific Research on Priority Areas
|
Allocation Type | Single-year Grants |
Review Section |
Science and Engineering
|
Research Institution | Hokkaido University |
Principal Investigator |
トーマス ツォイクマン (2005) 北海道大学, 大学院・情報科学研究科, 教授 (60374609)
有村 博紀 (2004) 北海道大学, 大学院・情報科学研究科, 教授 (20222763)
|
Co-Investigator(Kenkyū-buntansha) |
坂本 比呂志 九州工業大学, 情報工学部, 助教授 (50315123)
篠原 歩 東北大学, 大学院・情報科学研究科, 教授 (00226151)
下薗 真一 九州工業大学, 情報工学部, 助教授 (70243988)
湊 真一 北海道大学, 大学院・情報科学研究科, 助教授 (10374612)
喜田 拓也 北海道大学, 大学院・情報科学研究科, 助教授 (70343316)
竹田 正幸 九州大学, 大学院・システム情報科学研究院, 教授 (50216909)
|
Project Period (FY) |
2004 – 2005
|
Project Status |
Completed (Fiscal Year 2005)
|
Budget Amount *help |
¥7,900,000 (Direct Cost: ¥7,900,000)
Fiscal Year 2005: ¥3,600,000 (Direct Cost: ¥3,600,000)
Fiscal Year 2004: ¥4,300,000 (Direct Cost: ¥4,300,000)
|
Keywords | 半構造データ / ウェブマイニング / XMLデータ / グラフマイニング / パターン照合 / 系列パターン / 機械学習 / 文法圧縮 |
Research Abstract |
本研究は,大量のウェブページやXML等の大規模半構造データからのデータマイニング(ウェブマイニング)に基づき,大量のデータ解析を対話的に支援する効率的なツールとして,従来の情報検索システムを超えた新しい情報アクセスシステムの実現方式を明らかにすることを目標としている.その鍵になる技術として,最適パターン発見を木やグラフ構造に拡張し,計算量理論と計算学習理論の最新の成果を援用しながら,半構造データに対する頑健かつ高速な最適化パターン発見アルゴリズムの開発に取り組んだ. 平成17年度は,初年度から昨年度までの研究成果と統合し,最適半構造マイニングのプロトタイプシステム構築を目指した.研究項目としては,有用な情報源の発見,特徴的なパターンの発見,情報の抽出の3つの情報獲得問題に加えて,昨年度から新たに研究を開始した知識索引問題について取り組んだ.今年度得られた具体的な結果のうち主要なものは以下のとおりである. (1)大規模なトランザクションデータによく見られる疎な組み合わせ集合データを効率よく扱うことのできるデータ構造であるZBDD(Zero-suppress BDD)をベースに,その構造の元で重み付き積和集合を計算可能なZBDDパッケージツールVSOP(Valued Sum-Of-Products)の開発を推し進め,頻出するパターン集合を表現するZBDDを単純直交分解する機能を追加した.これにより,そのデータに内包された意味的構造を自動抽出することが可能になった.(湊) (2)パターン発見アルゴリズムによる分類・予測の長期的ふるまいに関する理論保証を与えることに成功した.(ツォイクマン) (3)系列データからの極大モチーフパターンを効率よく枚挙するアルゴリズムを得た.(有村:H13-H16代表) (4)Arc構造付きテキストに対する高速なパターン照合アルゴリズムを得た.(喜田)
|
Report
(2 results)
Research Products
(12 results)