• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2013 年度 実施状況報告書

最適状態探索とCHECK領域の削除によるダブル配列の辞書圧縮手法に関する研究

研究課題

研究課題/領域番号 24500118
研究機関徳島大学

研究代表者

泓田 正雄  徳島大学, ソシオテクノサイエンス研究部, 准教授 (10304552)

キーワードトライ / ダブル配列 / キーワード検索 / 圧縮アルゴリズム
研究概要

申請者が固定長のキーワード集合について提案したダブル配列の圧縮手法(SAMC法)を可変長キーワードに応用すると,CHECK配列中に未使用の部分が多くなり,CHECK配列のサイズが大きくなってしまうという問題がある.ダブル配列では,トライの全状態番号は一意に決まる訳ではなく,ダブル配列の基本の2式を満たせば,何通りもの組み合わせを考えることができる.平成25年度は,まず,OpenMPIを用いて階層的にCODE値を求める手法の実装を行なった.その結果,小規模なキー集合であれば,短い時間で解を求めることができたが,大規模なキー集合では,かなりの時間がかかった.またキー集合によっては,解が求まらない場合があった.そこで,遷移文字を4ビットや2ビットずつに分ける手法と,逆に2文字3文字ごとにまとめる手法を提案したが,それでも解が求まらない場合があった.
また,CHECK配列を削除し,代わりに状態番号から遷移文字を求める分類器を導入する手法の提案とソフトウェアの開発を行った.CHECK配列には遷移文字が格納されているので,状態番号を入力,遷移文字を出力とする関数を作成できれば,CHECK配列を削除することができる.多値分類によるCHECK配列の削除を用いたときに,分類器(関数)の保存に必要なサイズが最も小さくなる状態番号集合を高速に探索する手法について研究した.Wikipediaの見出し語やwebページから抽出した抽出したキーワードを用い,数万~数億件の大きさのキー集合を用いて実験を行った結果,速度は遅くなり,メモリ使用量も多くなった.
次に,遷移文字ごとに使用できる状態番号に制約をつけ,その状態を使用しているか使用していないかの2値分類を使用することで,CHECK配列を削除するアルゴリズムの提案を行なった.

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

本年度は,列挙アルゴリズムを用い,さらにトライを深さごとに分け,ダブル配列の基本の2式を満たす最適なCODE値を求める方法をOpenMPIで実装した.しかし,キー集合によっては解が求まらない場合があった.
また,CHECK配列を削除し,代わりに状態番号から遷移文字を求める多値分類器を導入する手法の提案とソフトウェアの開発を行ったが,小規模なキー集合でも,良い結果を得られることができなかった.
多値分類器を用いたためにメモリ使用量が多くなったので,今後は,2値分類を使用する方法を検討していきたい.

今後の研究の推進方策

2値分類によるCHECK配列の削除を用いたときに,分類器(関数)の保存に必要なサイズが最も小さくなる状態番号集合を高速に探索する手法について研究する.Wikipediaの見出し語やwebページから抽出した抽出したキーワードを用い,数万~数億件の大きさのキー集合を用いて実験を行い.従来手法と比較して辞書のサイズが小さくなっていることを確認する.また,検索速度の比較実験も行う.具体的実験に加えて,提案アルゴリズムの理論的解析を行い評価する.
また,遷移文字ごとに使用できる状態番号に制約をつけるのではなく,遷移した先のBASE値を工夫することにより,遷移した文字を特定する手法は,分類器を用いずにCHECK配列を無くすことが可能なので,その手法の提案をし,理論的評価と実験による評価を行う.

次年度の研究費の使用計画

前年度,研究の遅れより,既に繰越額があった.今年度もその遅れを取り戻すことができなかったため,今年も繰り越すこととなった.
実験を行なうためのプログラム作成者への謝金として使用する.

  • 研究成果

    (1件)

すべて 2013

すべて 学会発表 (1件)

  • [学会発表] A Retrieval Method for Double Array Structures by Using Byte N-Gram2013

    • 著者名/発表者名
      Masao Fuketa, Kazuhiro Morita and Jun-ichi Aoe
    • 学会等名
      6th International Conference on Computer Science and Information Technology (ICCSIT2013)
    • 発表場所
      Timhotel Berthier Paris( France)
    • 年月日
      20131220-20131221

URL: 

公開日: 2015-05-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi