1999 年度実績報告書

大規模半構造化テキストデータからの高速データマイニング・システムの開発

研究課題

研究課題/領域番号	11558040
研究種目	基盤研究(B)
研究機関	九州大学
研究代表者	有村博紀九州大学, 大学院・システム情報科学研究科, 助教授 (20222763)
研究分担者	篠原歩九州大学, 大学院・システム情報科学研究科, 助教授 (00226151) 竹田正幸九州大学, 大学院・システム情報科学研究科, 助教授 (50216909) 正代隆義九州大学, 大学院・システム情報科学研究科, 助教授 (50226304) 石野明九州大学, 大学院・システム情報科学研究科, 助手 (10315129)
キーワード	テキストデータ / データマイニング / 語相関パターン / 和歌データ / 類似性指標 / 文字列照合 / 半構造化テキスト / 主施律の類似性
研究概要	高速なネットワークと大容量記憶装置の発達を背景として,ウェブページに代表されるテキストデータの利用が急速に進みつつある.数十ギガバイトから数テラバイトを超える巨大テキストデータベースも出現している.とくに,XMLデータをはじめとする半構造テキストデータは,現在,WWWコンソーシアムを中心に詳細な仕様案の策定が行われており,ネットワーク上での情報流通のための事実上の標準となると考えられている.そのため,これらの半構造データからのデータマイニングが緊急の課題となる. 本研究では,ウェブやXMLデータなどの半構造化テキストデータを対象としたテキストデータマイニング・システムの実現方法について究明し,現実のテキストデータを対象として,システムの開発を行う.本年度は,以下に示すような研究を行った. まず,ロイターのニュース記事などの英文テキストデータを対象として,語相関パターンを抽出する高速なアルゴリズムを開発し,その有効性を示した. 次に、和歌データベースを対象として,特徴の抽出と類似歌発見の問題に取り組んだ.歌人や時代による特徴として「付属語のなすパターン」の抽出を試み,抽出法を確立した.また、類似歌抽出法を開発し,藤原兼輔の有名な和歌が,実は古今歌の本歌取りであるなどの新事実の発見に成功した. さらに,MIDIの形式で表された音楽情報などを対象として,主施律の類似性抽出のための類似性指標を案出し,変奏曲データなどを用いてその有効性を検証した. 一方,文字列処理の高速化という観点から,データ圧縮による文字列照合の高速化の問題に取り組み,これまで最速と考えられていたAgrepと比べ,処理速度を1.5〜3倍に向上させることに成功した. これらの研究成果を踏まえ,次年度には,より汎用的なマイニング方式を開発するとともに,その有効性を,実データからのマイニング実験を通じて検証する.

研究成果
(6件)

すべてその他

すべて文献書誌 (6件)

[文献書誌] T. Kida et al: "A Unifying Framework for Compressed Pattern Matching"Proc. 6th Int. Symp. String Processing and Information Retrieval. 89-96 (1999)
[文献書誌] K. Tamari et al: "Discovering Poetic Allusion in Anthologies of Classical Japanese Poems"Proc. 2nd Int. Conf. on Discovery Science. LNAI1721. 128-138 (1999)
[文献書誌] R. Fujino et al: "Discovering Unordered and Orderd Phrase Association Patterns for Text Mining"Proc. PAKDD2000. LNAI(印刷中). (2000)
[文献書誌] H. Arimura et al: "Efficient Discovery of Optimal Word-Association Patterns in Large Text Databases"New Generation Computing. 18(1). 49-60 (2000)
[文献書誌] M. Yamasaki et al: "Discovering Characteristic Patterns from Collections of Classical Japanese Poems"New Generation Computing. 18(1). 61-73 (2000)
[文献書誌] Y. Shibata et al: "Speeding Up Pattern Matching by Text Compression"Proc. 4th Italian Conf. on Algorithms and Complexity. LNCS1767. 306-316 (2000)

1999 年度 実績報告書

大規模半構造化テキストデータからの高速データマイニング・システムの開発

研究代表者

有村 博紀 九州大学, 大学院・システム情報科学研究科, 助教授 (20222763)

研究成果

[文献書誌] T. Kida et al: "A Unifying Framework for Compressed Pattern Matching"Proc. 6th Int. Symp. String Processing and Information Retrieval. 89-96 (1999)

[文献書誌] K. Tamari et al: "Discovering Poetic Allusion in Anthologies of Classical Japanese Poems"Proc. 2nd Int. Conf. on Discovery Science. LNAI1721. 128-138 (1999)

[文献書誌] R. Fujino et al: "Discovering Unordered and Orderd Phrase Association Patterns for Text Mining"Proc. PAKDD2000. LNAI(印刷中). (2000)

[文献書誌] H. Arimura et al: "Efficient Discovery of Optimal Word-Association Patterns in Large Text Databases"New Generation Computing. 18(1). 49-60 (2000)

[文献書誌] M. Yamasaki et al: "Discovering Characteristic Patterns from Collections of Classical Japanese Poems"New Generation Computing. 18(1). 61-73 (2000)

[文献書誌] Y. Shibata et al: "Speeding Up Pattern Matching by Text Compression"Proc. 4th Italian Conf. on Algorithms and Complexity. LNCS1767. 306-316 (2000)

1999 年度実績報告書

有村博紀九州大学, 大学院・システム情報科学研究科, 助教授 (20222763)