研究課題
あまりにも巨大なテキストは,読むことができないデータとほぼ同じであり,このようなデータの洪水に立ち向かうための次世代基盤技術の確立が急務である.本研究は,データ圧縮によって巨大テキストの俯瞰を可能にし,気づかれずに埋もれている知識を顕在化する圧縮マイニングを実現する.具体的には,これまでに申請者が開発した,テキスト中のパターンの関係を保存しながら圧縮する技術をマイニングに応用することで,GB 超~TB クラスの巨大テキスト同士の直接比較を可能にする.そして,これまでは歯が立たなかった超大規模テキストから知識を掘り起こし,まとまりごとに再構成することで知識を顕在化する.最終的には開発した手法の実世界応用をめざし,プログラムの公開を含めて成果を社会に向けて発信する.25年度は,前年に新しく見つかった理論的知見を拡張したため,その成果を基礎とする大規模データ処理のための新しい枠組みと高速アルゴリズムを開発した.具体的には以下のような成果を得た.【アルゴリズムの実装】大規模ストリームデータ処理を限られたメモリ上で実現するための新しい手法を開発し,理論及び実験の両方でその有効性を確認した.この成果は複数の国際会議において発表し,高い評価を得た.【実世界応用】ゲノムデータやtwitterなど幅広い実世界データに対して,本手法の有効性を確認した.この成果は,ビッグデータ専門の国際会議で採択され,評価を受けた.本研究課題は,4年間の計画であったが,最終年度の前年度に基盤研究(B)に採択されたため,引き続き発展的課題について取り組む.
25年度が最終年度であるため、記入しない。
すべて 2014 2013
すべて 雑誌論文 (3件) (うち査読あり 3件) 学会発表 (2件) 図書 (1件)
The First Workshop on Benchmarks, Performance Optimization, and Emerging hardware of Big Data Systems and Applications
巻: 1 ページ: 86-93
10.1109/BigData.2013.6691702
20th International Symposium on String Processing and Information Retrieval
巻: 8214 ページ: 218-229
10.1007/978-3-319-02432-5_25
24th Annual Symposium on Combinatorial Pattern Matching
巻: 7922 ページ: 235-246
10.1007/978-3-642-38905-4_23