2013 Fiscal Year Annual Research Report
圧縮マイニング:超大規模テキストに埋もれている知識の顕在化
Project/Area Number |
23680016
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
坂本 比呂志 九州工業大学, 大学院情報工学研究院, 教授 (50315123)
|
Project Period (FY) |
2011-04-01 – 2015-03-31
|
Keywords | データ圧縮 / 簡潔データ構造 / ストリームデータ / 文法圧縮 |
Research Abstract |
あまりにも巨大なテキストは,読むことができないデータとほぼ同じであり,このようなデータの洪水に立ち向かうための次世代基盤技術の確立が急務である.本研究は,データ圧縮によって巨大テキストの俯瞰を可能にし,気づかれずに埋もれている知識を顕在化する圧縮マイニングを実現する.具体的には,これまでに申請者が開発した,テキスト中のパターンの関係を保存しながら圧縮する技術をマイニングに応用することで,GB 超~TB クラスの巨大テキスト同士の直接比較を可能にする.そして,これまでは歯が立たなかった超大規模テキストから知識を掘り起こし,まとまりごとに再構成することで知識を顕在化する.最終的には開発した手法の実世界応用をめざし,プログラムの公開を含めて成果を社会に向けて発信する.25年度は,前年に新しく見つかった理論的知見を拡張したため,その成果を基礎とする大規模データ処理のための新しい枠組みと高速アルゴリズムを開発した.具体的には以下のような成果を得た. 【アルゴリズムの実装】 大規模ストリームデータ処理を限られたメモリ上で実現するための新しい手法を開発し,理論及び実験の両方でその有効性を確認した.この成果は複数の国際会議において発表し,高い評価を得た. 【実世界応用】 ゲノムデータやtwitterなど幅広い実世界データに対して,本手法の有効性を確認した.この成果は,ビッグデータ専門の国際会議で採択され,評価を受けた. 本研究課題は,4年間の計画であったが,最終年度の前年度に基盤研究(B)に採択されたため,引き続き発展的課題について取り組む.
|
Current Status of Research Progress |
Reason
25年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
25年度が最終年度であるため、記入しない。
|