研究分担者 |
篠原 歩 九州大学, 大学院・システム情報科学研究科, 助教授 (00226151)
竹田 正幸 九州大学, 大学院・システム情報科学研究科, 助教授 (50216909)
正代 隆義 九州大学, 大学院・システム情報科学研究科, 助教授 (50226304)
石野 明 九州大学, 大学院・システム情報科学研究科, 助手 (10315129)
|
研究概要 |
高速なネットワークと大容量記憶装置の発達を背景として,ウェブページに代表されるテキストデータの利用が急速に進みつつある.数十ギガバイトから数テラバイトを超える巨大テキストデータベースも出現している.とくに,XMLデータをはじめとする半構造テキストデータは,現在,WWWコンソーシアムを中心に詳細な仕様案の策定が行われており,ネットワーク上での情報流通のための事実上の標準となると考えられている.そのため,これらの半構造データからのデータマイニングが緊急の課題となる. 本研究では,ウェブやXMLデータなどの半構造化テキストデータを対象としたテキストデータマイニング・システムの実現方法について究明し,現実のテキストデータを対象として,システムの開発を行う.本年度は,以下に示すような研究を行った. まず,ロイターのニュース記事などの英文テキストデータを対象として,語相関パターンを抽出する高速なアルゴリズムを開発し,その有効性を示した. 次に、和歌データベースを対象として,特徴の抽出と類似歌発見の問題に取り組んだ.歌人や時代による特徴として「付属語のなすパターン」の抽出を試み,抽出法を確立した.また、類似歌抽出法を開発し,藤原兼輔の有名な和歌が,実は古今歌の本歌取りであるなどの新事実の発見に成功した. さらに,MIDIの形式で表された音楽情報などを対象として,主施律の類似性抽出のための類似性指標を案出し,変奏曲データなどを用いてその有効性を検証した. 一方,文字列処理の高速化という観点から,データ圧縮による文字列照合の高速化の問題に取り組み,これまで最速と考えられていたAgrepと比べ,処理速度を1.5〜3倍に向上させることに成功した. これらの研究成果を踏まえ,次年度には,より汎用的なマイニング方式を開発するとともに,その有効性を,実データからのマイニング実験を通じて検証する.
|