研究課題/領域番号 |
23680016
|
研究機関 | 九州工業大学 |
研究代表者 |
坂本 比呂志 九州工業大学, 情報工学研究院, 教授 (50315123)
|
研究期間 (年度) |
2011-04-01 – 2015-03-31
|
キーワード | データ圧縮 / 簡潔データ構造 / ストリームデータ / 文法圧縮 |
研究概要 |
あまりにも巨大なテキストは,読むことができないデータとほぼ同じであり,このようなデータの洪水に立ち向かうための次世代基盤技術の確立が急務である.本研究は,データ圧縮によって巨大テキストの俯瞰を可能にし,気づかれずに埋もれている知識を顕在化する圧縮マイニングを実現することが目標である.前年度に,当初は予見できなかった新しい知見を得たため,24年度はその部分の理論の拡張を試みた.その結果,圧縮率と省メモリ化の両方を高いレベルで達成することに成功した.さらにこのアルゴリズムをストリーム処理可能なものに高機能化することにも成功した.これらのプロトタイプを作成し,大規模データで実験した結果を主要論文誌やその分野のトップカンファレンスに投稿し,採択された.具体的には以下のような成果を得た. 【基礎理論の構築】圧縮マイニングの定式化: 前年度で構築したデータ構造とアルゴリズムに高速・軽量の照合技術を組み合わせることで圧縮マイニングの基本的枠組みを完成させた.ネットワーククラスタリングへの応用: 申請者がデータ圧縮と平行して進めているネットワークマイニングの成果を応用して大規模グラフデータからのパターン獲得に応用できることを予備的な実験によって示した. 【アルゴリズムの実装】曖昧検索の実現: 基本的な枠組みでは,圧縮データからパター ン検索には曖昧な検索ができない.現在は,このアルゴリズムは,部分的な一致を検出することで曖昧な検索が可能となっている. この成果によって,これまでは困難であった,GB 超~TB クラスの巨大テキスト同士の直接比較が可能になる.そして,これまでは歯が立たなかった超大規模テキストから知識を掘り起こし,まとまりごとに再構成することで知識を顕在化するための研究を本格化する.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
前年度に得られた,当初は予見できなかった新しい枠組みを取り入れての理論を完成させた.また,そのアルゴリズムのプロトタイプを作成し,GBを超える規模のデータに対しても十分に高速に動作することを確認した.したがって,これまでの成果は計画を上回っていると言える.また,当初は最終年度にプログラムの公開を予定していたが,今年度から順次プロトタイプも公開しており,実世界への応用と情報発信は前倒しで実施できていると言える.以上のことから本計画は当初の計画以上に進展していると言える.
|
今後の研究の推進方策 |
今後は,ビッグデータ時代の到来を見据えて,さらなる大規模化と低コスト化を目指す.そのためには,リアルデータを保持しているドメインエキスパートや他分野の研究者との交流を促進し,本研究が核となる研究テーマを開拓する.また,最終年度の目標である【実世界への応用と情報発信】についても次年度より研究を開始する.この部分については,すでに共同研究者を開始しており,徐々に成果が現れつつある.
|