2013 Fiscal Year Annual Research Report
Project/Area Number |
23650074
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
坂本 比呂志 九州工業大学, 大学院情報工学研究院, 教授 (50315123)
|
Co-Investigator(Kenkyū-buntansha) |
久保山 哲二 学習院大学, 計算機センター, 教授 (80302660)
|
Keywords | データ圧縮 / データマイニング / 簡潔データ構造 / グラフ構造 |
Research Abstract |
あまりにも巨大なテキストは,読むことができないデータとほぼ同じであり,このようなデータの洪水に立ち向かうための次世代基盤技術の確立が急務である.本研究は,これまでに申請者が開発した,テキスト中のパターンの関係を保存しながら圧縮する技術をマイニングに応用することで,GB 超~TB クラスの巨大テキスト同士の直接比較を可能にし,これまでは歯が立たなかった超大規模テキストから知識のまとまりを再構成する.本課題では曖昧検索と部分構造抽出を可能とする理論拡張を行った.その結果として,圧縮データによる要約技術を実世界データへ適用することが可能となった.具体的には以下の成果を上げた. 【基礎理論の構築】最終年度以前では,木構造の分解による索引構造の構築および簡潔データ構造のデータ圧縮への応用について理論の拡張を行った.この理論に基づき,最終年度では圧縮マイニングの定式化とネットワーク分析への応用について集中的に研究を行った.その結果,大規模グラフ構造からの知識を抽出する新しいアルゴリズムを構築した. 【アルゴリズムの実装】これまでのアルゴリズムでは圧縮データから曖昧検索ができない.そこで,前年度までに完成した理論を実装し,正規表現を部分的にカバーする曖昧検索を圧縮データ上で実現した.また,このアルゴリズムを並列化し,より大規模データに適用可能とした. 【実世界への応用と情報発信】これまでに開発した類似性判定や高速照合の技術を用いて,最終年度では,文字列の類似度を高速に判定するオンラインアルゴリズムを開発し,ツイッターデータなどに適用し,その規模耐性や有効性を検証した.その結果,類似しているが全く同じではない記載を高速に抽出できることを確認した.
|