研究課題/領域番号 |
15J05902
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 国内 |
研究分野 |
知能情報学
|
研究機関 | 九州工業大学 |
研究代表者 |
高畠 嘉将 九州工業大学, 大学院情報工学府, 特別研究員(DC2)
|
研究期間 (年度) |
2015-04-24 – 2017-03-31
|
研究課題ステータス |
完了 (2016年度)
|
配分額 *注記 |
1,700千円 (直接経費: 1,700千円)
2016年度: 800千円 (直接経費: 800千円)
2015年度: 900千円 (直接経費: 900千円)
|
キーワード | 文法圧縮索引 / 文法圧縮 / オンラインアルゴリズム / 移動付き編集距離 / 頻出パターン発見 / ストリームデータ圧縮 / データ圧縮索引 / 文字列検索 |
研究実績の概要 |
近年,繰り返し構造を多く含む文書データが世代管理システム(Dropbox,GithubやWikipediaなど)やゲノムデータベース(1000人ゲノム計画など)の普及により,TBを超えて,今尚,増加の一途を辿っている.これらのデータは,世代の復元,文書やソースコードの検索,ゲノムの解析と再利用される.したがって,本研究では,アップロードされ,増え続けるこのようなストリームデータを省領域かつ高速に小さく圧縮し,圧縮した瞬間からその圧縮データ上で高速検索可能な索引を開発することによりこれらのデータからのリアルタイムかつ圧縮領域での知識発見を目指した.この問題に有効な文法圧縮索引は繰り返しの多いデータを小さく圧縮し,その圧縮データ上で高速にキーワード検索可能である.しかし,既存の文法圧縮索引はテキスト長の領域が必要でかつオフラインアルゴリズムであるため,ストリームデータのようにデータを追加する場合には,それまで圧縮したデータを破棄し,再圧縮し直さなければならず,計算時間と領域の両方のコストが高い.そこで前年度の研究では,圧縮領域でかつ理論上は高速に新たなデータを追加可能なオンライン文法圧縮索引を開発した.本年度はその文法圧縮索引の検索技術を剽窃の発見に有効な移動付き編集距離に基づく曖昧検索に拡張した(Algorithms).また,オンライン文法圧縮索引を応用した頻出パターンを近似的に発見する技術も開発した(ICGI2016).これは既存手法ではテキスト長必要な領域を圧縮領域に削減し,より巨大な文書を扱うことが可能となる.これらの技術は速度の面で問題は残るが,そこを改善することにより,これまででは不可能なサイズのアップロードされる文書やソースコードの剽窃の発見,シーケンサから出力されるゲノムやスポーツのセンサデータの解析といった知識発見をリアルタイムに行うことが期待できる.
|
現在までの達成度 (段落) |
28年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
28年度が最終年度であるため、記入しない。
|