2013 Fiscal Year Research-status Report
最適状態探索とCHECK領域の削除によるダブル配列の辞書圧縮手法に関する研究
Project/Area Number |
24500118
|
Research Institution | The University of Tokushima |
Principal Investigator |
泓田 正雄 徳島大学, ソシオテクノサイエンス研究部, 准教授 (10304552)
|
Keywords | トライ / ダブル配列 / キーワード検索 / 圧縮アルゴリズム |
Research Abstract |
申請者が固定長のキーワード集合について提案したダブル配列の圧縮手法(SAMC法)を可変長キーワードに応用すると,CHECK配列中に未使用の部分が多くなり,CHECK配列のサイズが大きくなってしまうという問題がある.ダブル配列では,トライの全状態番号は一意に決まる訳ではなく,ダブル配列の基本の2式を満たせば,何通りもの組み合わせを考えることができる.平成25年度は,まず,OpenMPIを用いて階層的にCODE値を求める手法の実装を行なった.その結果,小規模なキー集合であれば,短い時間で解を求めることができたが,大規模なキー集合では,かなりの時間がかかった.またキー集合によっては,解が求まらない場合があった.そこで,遷移文字を4ビットや2ビットずつに分ける手法と,逆に2文字3文字ごとにまとめる手法を提案したが,それでも解が求まらない場合があった. また,CHECK配列を削除し,代わりに状態番号から遷移文字を求める分類器を導入する手法の提案とソフトウェアの開発を行った.CHECK配列には遷移文字が格納されているので,状態番号を入力,遷移文字を出力とする関数を作成できれば,CHECK配列を削除することができる.多値分類によるCHECK配列の削除を用いたときに,分類器(関数)の保存に必要なサイズが最も小さくなる状態番号集合を高速に探索する手法について研究した.Wikipediaの見出し語やwebページから抽出した抽出したキーワードを用い,数万~数億件の大きさのキー集合を用いて実験を行った結果,速度は遅くなり,メモリ使用量も多くなった. 次に,遷移文字ごとに使用できる状態番号に制約をつけ,その状態を使用しているか使用していないかの2値分類を使用することで,CHECK配列を削除するアルゴリズムの提案を行なった.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本年度は,列挙アルゴリズムを用い,さらにトライを深さごとに分け,ダブル配列の基本の2式を満たす最適なCODE値を求める方法をOpenMPIで実装した.しかし,キー集合によっては解が求まらない場合があった. また,CHECK配列を削除し,代わりに状態番号から遷移文字を求める多値分類器を導入する手法の提案とソフトウェアの開発を行ったが,小規模なキー集合でも,良い結果を得られることができなかった. 多値分類器を用いたためにメモリ使用量が多くなったので,今後は,2値分類を使用する方法を検討していきたい.
|
Strategy for Future Research Activity |
2値分類によるCHECK配列の削除を用いたときに,分類器(関数)の保存に必要なサイズが最も小さくなる状態番号集合を高速に探索する手法について研究する.Wikipediaの見出し語やwebページから抽出した抽出したキーワードを用い,数万~数億件の大きさのキー集合を用いて実験を行い.従来手法と比較して辞書のサイズが小さくなっていることを確認する.また,検索速度の比較実験も行う.具体的実験に加えて,提案アルゴリズムの理論的解析を行い評価する. また,遷移文字ごとに使用できる状態番号に制約をつけるのではなく,遷移した先のBASE値を工夫することにより,遷移した文字を特定する手法は,分類器を用いずにCHECK配列を無くすことが可能なので,その手法の提案をし,理論的評価と実験による評価を行う.
|
Expenditure Plans for the Next FY Research Funding |
前年度,研究の遅れより,既に繰越額があった.今年度もその遅れを取り戻すことができなかったため,今年も繰り越すこととなった. 実験を行なうためのプログラム作成者への謝金として使用する.
|
Research Products
(1 results)