1999 Fiscal Year Annual Research Report
大規模半構造化テキストデータからの高速データマイニング・システムの開発
Project/Area Number |
11558040
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | Kyushu University |
Principal Investigator |
有村 博紀 九州大学, 大学院・システム情報科学研究科, 助教授 (20222763)
|
Co-Investigator(Kenkyū-buntansha) |
篠原 歩 九州大学, 大学院・システム情報科学研究科, 助教授 (00226151)
竹田 正幸 九州大学, 大学院・システム情報科学研究科, 助教授 (50216909)
正代 隆義 九州大学, 大学院・システム情報科学研究科, 助教授 (50226304)
石野 明 九州大学, 大学院・システム情報科学研究科, 助手 (10315129)
|
Keywords | テキストデータ / データマイニング / 語相関パターン / 和歌データ / 類似性指標 / 文字列照合 / 半構造化テキスト / 主施律の類似性 |
Research Abstract |
高速なネットワークと大容量記憶装置の発達を背景として,ウェブページに代表されるテキストデータの利用が急速に進みつつある.数十ギガバイトから数テラバイトを超える巨大テキストデータベースも出現している.とくに,XMLデータをはじめとする半構造テキストデータは,現在,WWWコンソーシアムを中心に詳細な仕様案の策定が行われており,ネットワーク上での情報流通のための事実上の標準となると考えられている.そのため,これらの半構造データからのデータマイニングが緊急の課題となる. 本研究では,ウェブやXMLデータなどの半構造化テキストデータを対象としたテキストデータマイニング・システムの実現方法について究明し,現実のテキストデータを対象として,システムの開発を行う.本年度は,以下に示すような研究を行った. まず,ロイターのニュース記事などの英文テキストデータを対象として,語相関パターンを抽出する高速なアルゴリズムを開発し,その有効性を示した. 次に、和歌データベースを対象として,特徴の抽出と類似歌発見の問題に取り組んだ.歌人や時代による特徴として「付属語のなすパターン」の抽出を試み,抽出法を確立した.また、類似歌抽出法を開発し,藤原兼輔の有名な和歌が,実は古今歌の本歌取りであるなどの新事実の発見に成功した. さらに,MIDIの形式で表された音楽情報などを対象として,主施律の類似性抽出のための類似性指標を案出し,変奏曲データなどを用いてその有効性を検証した. 一方,文字列処理の高速化という観点から,データ圧縮による文字列照合の高速化の問題に取り組み,これまで最速と考えられていたAgrepと比べ,処理速度を1.5〜3倍に向上させることに成功した. これらの研究成果を踏まえ,次年度には,より汎用的なマイニング方式を開発するとともに,その有効性を,実データからのマイニング実験を通じて検証する.
|
Research Products
(6 results)
-
[Publications] T. Kida et al: "A Unifying Framework for Compressed Pattern Matching"Proc. 6th Int. Symp. String Processing and Information Retrieval. 89-96 (1999)
-
[Publications] K. Tamari et al: "Discovering Poetic Allusion in Anthologies of Classical Japanese Poems"Proc. 2nd Int. Conf. on Discovery Science. LNAI1721. 128-138 (1999)
-
[Publications] R. Fujino et al: "Discovering Unordered and Orderd Phrase Association Patterns for Text Mining"Proc. PAKDD2000. LNAI(印刷中). (2000)
-
[Publications] H. Arimura et al: "Efficient Discovery of Optimal Word-Association Patterns in Large Text Databases"New Generation Computing. 18(1). 49-60 (2000)
-
[Publications] M. Yamasaki et al: "Discovering Characteristic Patterns from Collections of Classical Japanese Poems"New Generation Computing. 18(1). 61-73 (2000)
-
[Publications] Y. Shibata et al: "Speeding Up Pattern Matching by Text Compression"Proc. 4th Italian Conf. on Algorithms and Complexity. LNCS1767. 306-316 (2000)