研究課題
あまりにも巨大なテキストは,読むことができないデータとほぼ同じであり,このようなデータの洪水に立ち向かうための次世代基盤技術の確立が急務である.本研究は,これまでに申請者が開発した,テキスト中のパターンの関係を保存しながら圧縮する技術をマイニングに応用することで,GB 超~TB クラスの巨大テキスト同士の直接比較を可能にし,これまでは歯が立たなかった超大規模テキストから知識のまとまりを再構成する.本課題では曖昧検索と部分構造抽出を可能とする理論拡張を行った.その結果として,圧縮データによる要約技術を実世界データへ適用することが可能となった.具体的には以下の成果を上げた.【基礎理論の構築】最終年度以前では,木構造の分解による索引構造の構築および簡潔データ構造のデータ圧縮への応用について理論の拡張を行った.この理論に基づき,最終年度では圧縮マイニングの定式化とネットワーク分析への応用について集中的に研究を行った.その結果,大規模グラフ構造からの知識を抽出する新しいアルゴリズムを構築した.【アルゴリズムの実装】これまでのアルゴリズムでは圧縮データから曖昧検索ができない.そこで,前年度までに完成した理論を実装し,正規表現を部分的にカバーする曖昧検索を圧縮データ上で実現した.また,このアルゴリズムを並列化し,より大規模データに適用可能とした.【実世界への応用と情報発信】これまでに開発した類似性判定や高速照合の技術を用いて,最終年度では,文字列の類似度を高速に判定するオンラインアルゴリズムを開発し,ツイッターデータなどに適用し,その規模耐性や有効性を検証した.その結果,類似しているが全く同じではない記載を高速に抽出できることを確認した.
すべて 2014 2013
すべて 雑誌論文 (3件) 学会発表 (2件)
The First Workshop on Benchmarks, Performance Optimization, and Emerging hardware of Big Data Systems and Applications
巻: 1 ページ: 86-93
10.1109/BigData.2013.6691702
20th International Symposium on String Processing and Information Retrieval
巻: 8214 ページ: 218-229
10.1007/978-3-319-02432-5_25
24th Annual Symposium on Combinatorial Pattern Matching
巻: 7922 ページ: 235-246
10.1007/978-3-642-38905-4_23