2000 年度実績報告書

大規模半構造化テキストデータからの高速データマイニング・システムの開発

研究課題

研究課題/領域番号	11558040
研究機関	九州大学
研究代表者	有村博紀九州大学, 大学院・システム情報科学研究院, 助教授 (20222763)
研究分担者	篠原歩九州大学, 大学院・システム情報科学研究院, 助教授 (00226151) 竹田正幸九州大学, 大学院・システム情報科学研究院, 助教授 (50216909) 正代隆義九州大学, 大学院・システム情報科学研究院, 助教授 (50226304) 石野明九州大学, 大学院・システム情報科学研究院, 助手 (10315129)
キーワード	Webマイニング / 半構造化テキスト / HTML / XML / 最適パターン発見 / 接尾辞配列 / データ圧縮 / パターン照合
研究概要	高速なネットワークと大容量記憶装置の発達を背景として,ウェブページに代表されるテキストデータの利用が急速に進みつつある.数十ギガバイトから数テラバイトを超える巨大テキストデータベースも出現している.とくに,XMLデータをはじめとする半構造テキストデータは,現在,WWWコンソーシアムを中心に詳細な仕様案の策定が行われており,ネットワーク上での情報流通のための事実上の標準となると考えられている.そのため,これらの半構造データからのデータマイニングが緊急の課題となる.しかし,現在のデータマイニングの対象は,データが明示的で平坦な構造をもつ関係データベースが中心であり,これらテキストデータベースに関しては,(i)不完全で(ii)非均質なデータの(iii)膨大な量の集積である,などの理由から,従来のデータマイニング手法をそのまま適用することができず,ほとんど研究が行われていない.本研究では,ウェブやXMLデータなどの半構造化テキストデータを対象としたテキストデータマイニング・システムの実現方法について究明し,実際に,XML規格のデータとゲノムデータベースを対象として,システムの開発を行っている.本年度は,以下の問題に取り組んだ. ・大規模テキストデータへの高速アクセスを可能にする索引構造として,接尾辞配列が知られでいるが,この接尾辞配列を分散型並列計算機上で高速に構築する手法を開発した. ・最適パターン発見手法を,マルチカテゴリテキストからのパターン発見問題に拡張し,実験によってその有効性を検証した. ・HTML文書から部分的にテキストを切り出す問題を学習の問題として捉え,効率的な学習アルゴリズムを開発するとともに,これを実装し,その有効性を検証した. ・高速な文書処理を可能にするため,テキストを圧縮することにより,高速に種々の文字列照合を行う手法を開発した. ・最適パターン発見ツールの出力から専門家が有用なものを選択する「評価・解釈」の作業を効率化する手法を,文字列の組み合わせ的性質に基づいて提案し,その有効性を確認した.

研究成果
(6件)

すべてその他

すべて文献書誌 (6件)

[文献書誌] 安部潤一郎,有村博紀,坂本比呂志,有川節夫,: "テキストマイニングを用いたWebデータからの複合概念の発見"日本ソフトウエア科学会第2回データマイニングワークショップ会議録. (2001)
[文献書誌] Hiroshi Sakamoto,Hiroki Arimura,and Setsuo Arikawa: "Extracting Partial Structures from HTML Documents"the 14th Florida Artificial Intelligence Research Symposium(FLAIRS'2001). (2001)
[文献書誌] Hiroki Arimura, et al.: "Text Data Mining : Discovery of Important Keywords in the Cyberspace"Proc.2000 Kyoto International Conference on Digital Libraries : Research and Practice, Kyoto University. (2001)
[文献書誌] G.Navarro,T.Kida,M.Takeda,A.Shinohara: "Faster Approximate String Matching Over Compressed Text."Proc.Data Compression Conference (DCC'2001),. (2001)
[文献書誌] Masayuki Takeda: "Speeding up string pattern matching by text compression : The dawn of a new era"情報処理学会論文誌. 42・3. (2001)
[文献書誌] Masayuki Takeda, et al.: "Discovering characteristic expressions from literary works : A new text analysis method beyond N-gram statistics and KWIC"Proc.3rd International Conference on Discovery Science (DS'2000). 112-126 (2000)

2000 年度 実績報告書

大規模半構造化テキストデータからの高速データマイニング・システムの開発

研究代表者

有村 博紀 九州大学, 大学院・システム情報科学研究院, 助教授 (20222763)

研究成果

[文献書誌] 安部潤一郎,有村博紀,坂本比呂志,有川節夫,: "テキストマイニングを用いたWebデータからの複合概念の発見"日本ソフトウエア科学会第2回データマイニングワークショップ会議録. (2001)

[文献書誌] Hiroshi Sakamoto,Hiroki Arimura,and Setsuo Arikawa: "Extracting Partial Structures from HTML Documents"the 14th Florida Artificial Intelligence Research Symposium(FLAIRS'2001). (2001)

[文献書誌] Hiroki Arimura, et al.: "Text Data Mining : Discovery of Important Keywords in the Cyberspace"Proc.2000 Kyoto International Conference on Digital Libraries : Research and Practice, Kyoto University. (2001)

[文献書誌] G.Navarro,T.Kida,M.Takeda,A.Shinohara: "Faster Approximate String Matching Over Compressed Text."Proc.Data Compression Conference (DCC'2001),. (2001)

[文献書誌] Masayuki Takeda: "Speeding up string pattern matching by text compression : The dawn of a new era"情報処理学会論文誌. 42・3. (2001)

[文献書誌] Masayuki Takeda, et al.: "Discovering characteristic expressions from literary works : A new text analysis method beyond N-gram statistics and KWIC"Proc.3rd International Conference on Discovery Science (DS'2000). 112-126 (2000)

2000 年度実績報告書

有村博紀九州大学, 大学院・システム情報科学研究院, 助教授 (20222763)