2001 Fiscal Year Annual Research Report
大規模半構造化テキストデータからの高速データマイニング・システムの開発
Project/Area Number |
11558040
|
Research Institution | Kyushu University |
Principal Investigator |
有村 博紀 九州大学, 大学院・システム情報科学研究院, 助教授 (20222763)
|
Co-Investigator(Kenkyū-buntansha) |
篠原 歩 九州大学, 大学院・システム情報科学研究院, 助教授 (00226151)
竹田 正幸 九州大学, 大学院・システム情報科学研究院, 助教授 (50216909)
正代 隆義 九州大学, 大学院・システム情報科学研究院, 助教授 (50226304)
平田 耕一 九州工業大学, 情報工学部, 助教授 (20274558)
石野 明 九州大学, 大学院・システム情報科学研究院, 助手 (10315129)
|
Keywords | Webマイニング / 半構造化テキスト / HTML / XML / 最適パターン発見 / 接尾辞配列 / データ圧縮 / パターン照合 |
Research Abstract |
高速なネットワークと大容量記憶装置の発達を背景として,ウェブページに代表されるテキストデータの利用が急速に進みつつある.数十ギガバイトから数テラバイトを超える巨大テキストデータベースも出現している.とくに,XMLデータをはじめとする半構造テキストデータは,現在,WWWコンソーシアムを中心に詳細な仕様案の策定が行なわれており,ネットワーク上での情報流通のための事実上の標準となると考えられている.そのため,これらの半構造データからのデータマイニングが緊急の課題となる.しかし,現在のデータマイニングの対象は,データが明示的で,平坦な構造をもつ関係データベースが中心であり,これらテキストデータベースに関しては,(1)不完全で(2)非均質なデータの(3)膨大な量の集積である,などの理由から,従来のデータマイニング手法をそのまま適用することができず,ほとんど研究が行なわれていない.本研究では,ウェブやXMLデータなどの半構造化テキストデータを対象としたテキストデータマイニング・システムの実現方法について究明し,実際に,XML規格のデータとゲノムデータベースを対象として,システムの開発を行なっている. 本年度は,以下の問題に取り組んだ. ・大規模テキストデータへの高速アクセスを可能にする索引構造として,接尾辞配列が知られているが,この接尾辞配列を分散型並列計算機上で高速に構築する手法を開発した. ・最適パターン発見手法を,マルチカテゴリテキストからのパターン発見問題に拡張し,実験によってその有効性を検証した. ・高速な文書処理を可能にするため,テキストを圧縮することにより,高速に種々の文字列照合を行なう手法を開発した. ・最適パターン発見ツールの出力から専門家が有用なものを選択する「評価・解釈」の作業を効率化する手法を,文字列の組み合わせ的性質に基づいて提案し,その有効性を確認した.
|
Research Products
(6 results)
-
[Publications] H.Arimura et al.: "Efficient Learning of Semi-Structured Data from Queries"Lecture Notes in Artificial Intelligence. 2225. 315-331 (2001)
-
[Publications] M.Taked et al.: "Mining from Literary Texts : Pattern Discovery and Similarity Computation"Lecture Notes in Computer Science. 2281. 520-533 (2002)
-
[Publications] T.Shoudai et al.: "Polynomial Time Algorithms for Finding Unordered Tree Patterns with Internal Variables"Lecture Notes in Computer Scienc. 2138. 335-346 (2001)
-
[Publications] K.Yamamoto et al.: "Discovering Repetitive Expressions and Affinities from Anthologies of Classical Japanese Poems"Lecture Notes in Artificial Intelligence. 2226. 413-425 (2001)
-
[Publications] A.Yamamoto et al.: "Deductive and lnductive Reasoning on Semi-Structured Documents Modeled with Hedges"Lecture Notes in Artificial Intelligence. 2157. 140-147 (2001)
-
[Publications] K.Hirata et al.: "Prediction-Preserving Reducibility with Membership Queries on Formal Languages"Lecture Notes in Computer Science. 2138. 172-183 (2001)