• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2017 年度 実績報告書

大規模データにおける高速検索可能な動的圧縮文字列辞書の研究

研究課題

研究課題/領域番号 17J07555
研究機関徳島大学

研究代表者

神田 峻介  徳島大学, 大学院先端技術科学教育部, 特別研究員(DC2)

研究期間 (年度) 2017-04-26 – 2019-03-31
キーワード文字列処理 / データマネジメント / データ圧縮
研究実績の概要

今年度は,研究計画に沿ってさまざまな圧縮文字列辞書を提案し,その成果を論文やソフトウェアを通して発表した.その研究成果は主に3つである.1つ目は,既存の静的圧縮文字列辞書の構築に必要となる膨大なコストを解消した手法である.既存の静的圧縮文字列辞書では,Re-Pairと呼ばれる強力な文字列圧縮技法を適用することで,高いメモリ効率を達成している一方で,その構築時間や領域は膨大であり,大規模なデータに対して適用する場合は実用的な時間で辞書を構築することができない.そこで本研究では,文字列辞書の圧縮に文字列辞書を再帰的に適用することで,この問題を解決した.2つ目は,ダブル配列を用いた辞書構造が動的応用において抱える問題を解決する手法である.ダブル配列は,現実的な作業領域で高速な検索を提供するデータ構造であり,形態素解析器や全文検索エンジンで現在も広く用いられている.一方で,更新が繰り返されるとダブル配列は性能が低下することが知られており,必要に応じて再構成を施す必要がある.本研究では,既存の手法を用いた場合,その再構成時間が問題になることを示し,それを解決するための手法をいくつか提案した.3つ目は,メモリ効率に優れた動的文字列辞書の提案である.ここ10年,静的な圧縮文字列辞書に関する研究は実用的にも大きく進展した一方で,動的な圧縮文字列辞書に関する研究は理論に留まっている.現実的な既存の動的辞書の実装は,静的な辞書と比べて遥かに多くのメモリを使用する.そこで,本研究では,Path DecompositionとCompact Hashingと呼ばれる技法を応用することで,メモリ効率の良い動的文字列辞書を提案した.どの手法においても,実データを用いた実験により厳密に評価を与え,有効性を示した.

現在までの達成度 (段落)

翌年度、交付申請を辞退するため、記入しない。

今後の研究の推進方策

翌年度、交付申請を辞退するため、記入しない。

  • 研究成果

    (9件)

すべて 2018 2017 その他

すべて 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 1件) 学会発表 (4件) (うち国際学会 2件) 備考 (3件)

  • [雑誌論文] Practical rearrangement methods for dynamic double-array dictionaries2018

    • 著者名/発表者名
      Shunsuke Kanda, Yuma Fujita, Kazuhiro Morita, Masao Fuketa
    • 雑誌名

      Software: Practice and Experience

      巻: 48(1) ページ: 65~83

    • DOI

      10.1002/spe.2516

    • 査読あり
  • [雑誌論文] 文字列辞書を用いた効率的な文字列辞書圧縮の検討と評価2018

    • 著者名/発表者名
      神田峻介,森田和宏,泓田正雄
    • 雑誌名

      日本データベース学会和文論文誌

      巻: 16-J(7) ページ: 1~7

    • 査読あり / オープンアクセス
  • [学会発表] メモリ効率の良い動的Trie辞書の設計と実装2018

    • 著者名/発表者名
      神田峻介,森田和宏,泓田正雄
    • 学会等名
      第10回データ工学と情報マネジメントに関するフォーラム
  • [学会発表] Practical string dictionary compression using string dictionary encoding2017

    • 著者名/発表者名
      Shunsuke Kanda, Kazuhiro Morita and Masao Fuketa
    • 学会等名
      3rd International Conference on Big Data Innovations and Applications
    • 国際学会
  • [学会発表] Practical implementation of space-efficient dynamic keyword dictionaries2017

    • 著者名/発表者名
      Shunsuke Kanda, Kazuhiro Morita and Masao Fuketa
    • 学会等名
      24th International Symposium on String Processing and Information Retrieval
    • 国際学会
  • [学会発表] Path Decompositionを用いたメモリ効率の良い動的キーワード辞書の実装法2017

    • 著者名/発表者名
      神田峻介,森田和宏,泓田正雄
    • 学会等名
      情報処理学会第128回情報基礎と情報基礎とアクセス技術研究会(第10回Webとデータベースに関するフォーラム)
  • [備考] ddd

    • URL

      https://github.com/kampersanda/ddd

  • [備考] dynpdt

    • URL

      https://github.com/kampersanda/dynpdt

  • [備考] poplar-trie

    • URL

      https://github.com/kampersanda/poplar-trie

URL: 

公開日: 2018-12-17  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi