2007 Fiscal Year Annual Research Report
大規模半構造データからの高速知識発見システムの開発
Project/Area Number |
17200011
|
Research Institution | FUJITSU LABORATORIES LTD. |
Principal Investigator |
岡本 青史 FUJITSU LABORATORIES LTD., ナレッジ研究センター, 主任研究員 (90399717)
|
Co-Investigator(Kenkyū-buntansha) |
竹田 正幸 九州大学, 大学院・システム情報科学研究院, 教授 (50216909)
篠原 歩 東北大学, 大学院・情報科学研究科, 教授 (00226151)
喜田 拓也 北海道大学, 大学院・情報科学研究科, 准教授 (70343316)
坂本 比呂志 九州工業大学, 情報工学部, 准教授 (50315123)
平田 耕一 九州工業大学, 情報工学部, 准教授 (20274558)
|
Keywords | 半構造データ / XML / 知識発見 / パターン発見 / パターン照合 / データ圧縮 |
Research Abstract |
【半構造データ処理基盤】XMLデータストリームを対象とした研究では、XPath対応を強化し、XPath質問式を高速に評価するアルゴリズムを開発した。テキスト圧縮による文字列照合の高速化の研究については、圧縮率及び照合速度をさらに向上させるアルゴリズムの開発に成功した。また、圧縮文字列中の最長共通部分文字列と、すべての回文を高速に発見するアルゴリズムも開発した。 半構造データ処理のための効率のよい索引構造の研究では、昨年度までの研究成果を用いてWeb文書からのランタイムかつ精度の高いキーワード抽出機構を構築した。また、有向グラフに対するラベル付け問題に対して、前処理時間、応答時間および領域計算量を削減した効率的な索引付けを提案し、実験によってその有効性を示した。さらに、このラベル付けアルゴリズムを応用し、グラフ上の距離を高速に計算する手法を提案した。 木の類似性発見の理論的研究では、高速な無順浮木に適用可能な木カーネルとして、二葉木カーネルを設計した。これは葉が高々2つであるような木の頻度を数え上げることで計算することができる。 【半構造データからのパターン発見】時系列データを対象とした研究では、エピソードマイニングの研究を深化させ、細菌感受性検査データに適用することでその効果を検証すると共に、直列エピソードの情報だけから構成できるエピソードと非並列エピソードが等価になることを理論的に示した。また、述語を組み合わせた複雑な時系列パターンの効率よい照合アルゴリズムを開発した。 Webデータからの知識発見への応用としては、パターン発見基盤技術を援用したスパム検出に取り組んだ。我々は、文字列の「異質性」を定量化し、異種性の計算に必要な文字列上の同値関係に基づく同値類の効率的計算法を提案することでスパム検出の開発に成功した。
|
Research Products
(24 results)