2012 Fiscal Year Research-status Report
最適状態探索とCHECK領域の削除によるダブル配列の辞書圧縮手法に関する研究
Project/Area Number |
24500118
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | The University of Tokushima |
Principal Investigator |
泓田 正雄 徳島大学, ソシオテクノサイエンス研究部, 准教授 (10304552)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | トライ / ダブル配列 / キーワード検索 / 圧縮 |
Research Abstract |
申請者が固定長のキーワード集合について提案したダブル配列の圧縮手法(SAMC法)を可変長キーワードに応用すると,CHECK配列中に未使用の部分が多くなり,CHECK配列のサイズが大きくなってしまうという問題がある.ダブル配列では,トライの全状態番号は一意に決まる訳ではなく,ダブル配列の基本の2式を満たせば,何通りもの組み合わせを考えることができる.そこで平成24年度は,列挙アルゴリズムを用いて,全てのCODE値の組み合わせを考え,その中でダブル配列の基本式をみたし,かつ配列中の未使用要素が最も少なくなる構築アルゴリズムについての研究を行った. まず,通常のダブル配列について,全てのCODE値の組み合わせについて,ダブル配列の基本2式を満たすことが可能かどうかを調べるプログラムを作成した.その結果,数10のキー集合であれば構築可能であったが,数100のキー集合になると,実行時間が遅くなった.そこで,Hadoopを使用し,並列で様々な組み合わせについて同時に判定できるプログラムを開発し,高速化を計ったが,少し大規模なキー集合では,構築に時間がかかった. この手法は,1つのCODE値の組み合わせにおいて,ダブル配列全体が成立するかを調べる為に時間がかかっていた.そこで,SAMC法についての構築プログラムを作成した,SAMC法は,階層的に順番にCODE値を決定していくので,段階的に実行することが可能となる.このSAMC法を使ってのCODE値の決定についてもHadoopで構築し,並列で様々な組み合わせについて実行できる手法を構築した.列挙アルゴリズムの考えを取り入れ,全ての組み合わせを調べながら,SAMC法の条件に合わない組み合わせを早めに枝がりすることにより,高速に最適解を求めるアルゴリズムを考案した.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本年度は,列挙アルゴリズムを用いて,ダブル配列の基本の2式を満たす最適なCODE値を求めるアルゴリズムの考案であった.Hadoopを用いることにより小規模なキー集合では解を求めることができたが,少し大きなキー集合では,時間がかかりすぎて解を求めることができなかった.また,SAMC法を用いた場合についても構築アルゴリズムを考案し,Hadoopを用いて実装した.ダブル配列よりも高速に構築できたが,それでも予定よりも高速化を行えなかった.理由としてはHadoopの並列化手法を用いた場合,1回の処理にかかる時間が長過ぎることと,枝狩りがうまく行なえないことにあった.従って,Hadoop以外の並列化手法を用いて,階層的に処理を行うことのできる方法で実装する必要がある.
|
Strategy for Future Research Activity |
まずは,Hadoop以外の並列化手法を用いて,階層的にCODE値を求める手法の実装をおこなう.また,CHECK配列を削除し,代わりに状態番号から遷移文字を求める分類器を導入する手法の提案とソフトウェアの開発を行う. CHECK配列には遷移文字が格納されているので,状態番号を入力,遷移文字を出力とする関数を作成できれば,CHECK配列を削除することができる.この関数の作成には,分類器やハッシュが考えられるので,カーネル法,SVM,ハッシュ関数などを検討して,効率的な分類関数についての研究を行う.ダブル配列の高速性を維持するために,ここでは,分類の計算量をO(1)に保ったまま検索できるアルゴリズムを提案する. 多値分類によるCHECK配列の削除を用いたときに,分類器(関数)の保存に必要なサイズが最も小さくなる状態番号集合を高速に探索する手法について研究する. Wikipediaの見出し語やwebページから抽出した抽出したキーワードを用い,数万~数億件の大きさのキー集合を用いて実験を行い.従来手法と比較して辞書のサイズが小さくなっていることを確認する.また,検索速度の比較実験も行う.具体的実験に加えて,提案アルゴリズムの理論的解析を行い評価する.また,キー集合の特徴により圧縮率が変化することが考えられるので,キー集合とCEHCKの未使用要素の出現率,辞書の圧縮率との関係についての分析を行う.
|
Expenditure Plans for the Next FY Research Funding |
次年度の繰越額は,学会参加費と,並列化手法調査のための書籍購入費として使用する予定である.
|