2000 Fiscal Year Annual Research Report
大規模半構造化テキストデータからの高速データマイニング・システムの開発
Project/Area Number |
11558040
|
Research Institution | Kyushu University |
Principal Investigator |
有村 博紀 九州大学, 大学院・システム情報科学研究院, 助教授 (20222763)
|
Co-Investigator(Kenkyū-buntansha) |
篠原 歩 九州大学, 大学院・システム情報科学研究院, 助教授 (00226151)
竹田 正幸 九州大学, 大学院・システム情報科学研究院, 助教授 (50216909)
正代 隆義 九州大学, 大学院・システム情報科学研究院, 助教授 (50226304)
石野 明 九州大学, 大学院・システム情報科学研究院, 助手 (10315129)
|
Keywords | Webマイニング / 半構造化テキスト / HTML / XML / 最適パターン発見 / 接尾辞配列 / データ圧縮 / パターン照合 |
Research Abstract |
高速なネットワークと大容量記憶装置の発達を背景として,ウェブページに代表されるテキストデータの利用が急速に進みつつある.数十ギガバイトから数テラバイトを超える巨大テキストデータベースも出現している.とくに,XMLデータをはじめとする半構造テキストデータは,現在,WWWコンソーシアムを中心に詳細な仕様案の策定が行われており,ネットワーク上での情報流通のための事実上の標準となると考えられている.そのため,これらの半構造データからのデータマイニングが緊急の課題となる.しかし,現在のデータマイニングの対象は,データが明示的で平坦な構造をもつ関係データベースが中心であり,これらテキストデータベースに関しては,(i)不完全で(ii)非均質なデータの(iii)膨大な量の集積である,などの理由から,従来のデータマイニング手法をそのまま適用することができず,ほとんど研究が行われていない.本研究では,ウェブやXMLデータなどの半構造化テキストデータを対象としたテキストデータマイニング・システムの実現方法について究明し,実際に,XML規格のデータとゲノムデータベースを対象として,システムの開発を行っている.本年度は,以下の問題に取り組んだ. ・大規模テキストデータへの高速アクセスを可能にする索引構造として,接尾辞配列が知られでいるが,この接尾辞配列を分散型並列計算機上で高速に構築する手法を開発した. ・最適パターン発見手法を,マルチカテゴリテキストからのパターン発見問題に拡張し,実験によってその有効性を検証した. ・HTML文書から部分的にテキストを切り出す問題を学習の問題として捉え,効率的な学習アルゴリズムを開発するとともに,これを実装し,その有効性を検証した. ・高速な文書処理を可能にするため,テキストを圧縮することにより,高速に種々の文字列照合を行う手法を開発した. ・最適パターン発見ツールの出力から専門家が有用なものを選択する「評価・解釈」の作業を効率化する手法を,文字列の組み合わせ的性質に基づいて提案し,その有効性を確認した.
|
Research Products
(6 results)
-
[Publications] 安部潤一郎,有村博紀,坂本比呂志,有川節夫,: "テキストマイニングを用いたWebデータからの複合概念の発見"日本ソフトウエア科学会第2回データマイニングワークショップ会議録. (2001)
-
[Publications] Hiroshi Sakamoto,Hiroki Arimura,and Setsuo Arikawa: "Extracting Partial Structures from HTML Documents"the 14th Florida Artificial Intelligence Research Symposium(FLAIRS'2001). (2001)
-
[Publications] Hiroki Arimura, et al.: "Text Data Mining : Discovery of Important Keywords in the Cyberspace"Proc.2000 Kyoto International Conference on Digital Libraries : Research and Practice, Kyoto University. (2001)
-
[Publications] G.Navarro,T.Kida,M.Takeda,A.Shinohara: "Faster Approximate String Matching Over Compressed Text."Proc.Data Compression Conference (DCC'2001),. (2001)
-
[Publications] Masayuki Takeda: "Speeding up string pattern matching by text compression : The dawn of a new era"情報処理学会論文誌. 42・3. (2001)
-
[Publications] Masayuki Takeda, et al.: "Discovering characteristic expressions from literary works : A new text analysis method beyond N-gram statistics and KWIC"Proc.3rd International Conference on Discovery Science (DS'2000). 112-126 (2000)