研究分担者 |
篠原 歩 九州大学, 大学院・システム情報科学研究院, 助教授 (00226151)
竹田 正幸 九州大学, 大学院・システム情報科学研究院, 助教授 (50216909)
正代 隆義 九州大学, 大学院・システム情報科学研究院, 助教授 (50226304)
石野 明 九州大学, 大学院・システム情報科学研究院, 助手 (10315129)
|
研究概要 |
高速なネットワークと大容量記憶装置の発達を背景として,ウェブページに代表されるテキストデータの利用が急速に進みつつある.数十ギガバイトから数テラバイトを超える巨大テキストデータベースも出現している.とくに,XMLデータをはじめとする半構造テキストデータは,現在,WWWコンソーシアムを中心に詳細な仕様案の策定が行われており,ネットワーク上での情報流通のための事実上の標準となると考えられている.そのため,これらの半構造データからのデータマイニングが緊急の課題となる.しかし,現在のデータマイニングの対象は,データが明示的で平坦な構造をもつ関係データベースが中心であり,これらテキストデータベースに関しては,(i)不完全で(ii)非均質なデータの(iii)膨大な量の集積である,などの理由から,従来のデータマイニング手法をそのまま適用することができず,ほとんど研究が行われていない.本研究では,ウェブやXMLデータなどの半構造化テキストデータを対象としたテキストデータマイニング・システムの実現方法について究明し,実際に,XML規格のデータとゲノムデータベースを対象として,システムの開発を行っている.本年度は,以下の問題に取り組んだ. ・大規模テキストデータへの高速アクセスを可能にする索引構造として,接尾辞配列が知られでいるが,この接尾辞配列を分散型並列計算機上で高速に構築する手法を開発した. ・最適パターン発見手法を,マルチカテゴリテキストからのパターン発見問題に拡張し,実験によってその有効性を検証した. ・HTML文書から部分的にテキストを切り出す問題を学習の問題として捉え,効率的な学習アルゴリズムを開発するとともに,これを実装し,その有効性を検証した. ・高速な文書処理を可能にするため,テキストを圧縮することにより,高速に種々の文字列照合を行う手法を開発した. ・最適パターン発見ツールの出力から専門家が有用なものを選択する「評価・解釈」の作業を効率化する手法を,文字列の組み合わせ的性質に基づいて提案し,その有効性を確認した.
|