研究課題/領域番号 |
15H02673
|
研究機関 | 北海道大学 |
研究代表者 |
本村 真人 北海道大学, 情報科学研究科, 教授 (90574286)
|
研究分担者 |
有村 博紀 北海道大学, 情報科学研究科, 教授 (20222763)
|
研究期間 (年度) |
2015-04-01 – 2019-03-31
|
キーワード | ビッグデータ / データマイニング / ストリーム処理 / リコンフィギュラブル |
研究実績の概要 |
ストリームデータ処理(CEP、ストリームマイニング等)はデータセンターにおける最先端情報処理の根幹技術として既に注目されているが、今後小型端末が爆発的に増殖するに従い、ネットワークに送出する手前でストリームデータトラフィックを減らす処理(=小型端末のスマート化)としても更に重要性を増すと予想される。すなわち、ネットワークの向こう側(データセンター)でも手前側(小型端末)でも、ストリームデータ処理はますますその重要性を高めていくと予想される。データセンターの高性能化・低電力化、および小型端末の低エネルギー化・環境負荷低減が社会的に大きな課題であることを考え合わせるならば、超高速・低電力なストリームデータ処理の実現を目指す研究の産業的な価値は極めて高いと言える。 このような問題意識のもと、今年度は、典型的かつ重要なストリームマイニング処理である頻出アイテムセットマイニング(Frequent ItemSet Mining: FISM)問題を題材に、FPGA実装を前提として、その最先端アルゴリズムのHWアーキテクチャの研究に注力した。特に、データベース関係の基幹学会であるSIGMOD2014で発表されたばかりで、特にストリーム向き高速・省メモリ指向の近似FISMアルゴリズムとして注目を集めているSkip LC-SSを研究対象として選び、このSkip LC-SSアルゴリズムを効率よくハードウェア化するための3つのハードウェア化要素技法について研究を進めた。また、データマイニングの一種である類似検索の比較的新しいアプローチとして注目されているLocality Sensitive Hashing (LSH)についてもそのHWアーキテクチャの研究を進めた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
まず、ハッシュテーブルをベースによりコンパクトかつ、探索が容易なアイテムセットの表現を考案した。長さ1 のアイテムセットに関しては従来の処理と変わらないが、長さ2 のアイテムセット(a, b) に関しては、そのままハッシュするのではなく、aをハッシュして得られたアドレス(固有の値) とb(新たなアイテム)をハッシュすることで、アイテムセットa, b がテーブル内に存在するかどうかを確認する。これにより、アドレスとアイテムが固定長であるため、いかなる大きさのトランザクションに対しても、ハッシュテーブルに保存されるデータは固定長となる。 次に、HWによるソートの実行は並列性が確保できないため性能上のボトルネックになりがちだという問題に関しては、ヒットしたアイテムに対してのみソートを行うことでその処理を簡略化し、パイプライン化することでソートを効率化した。この場合のソートは、ヒットしたアイテムセットのカウントを1 インクリメントし、元のカウントを持つアイテムセット群の一番上のアイテムセットとスワップを行うことになる。2つの情報を保持するメモリを分散させて書き込み優先で処理を行うことで、同一のメモリにアクセスが起きない場合はパイプライン処理が保たれるようにした。これによりマクロパイプラインにして、前段のハッシュテーブルでトランザクション内のアイテムセットがすべてヒットした場合にソート部がボトルネックになるという問題を解決した。 最後に、1トランザクションの処理毎にテーブルのアップデートが必要だというアルゴリズムの特性上並列性の確保が難しいという問題に対して、置換処理をトランザクション毎に行うのではなく、複数のトランザクションをバッチとして処理し、そこから生成される置換候補の中から頻出のものを探索し、バッチ終了時に現在のエントリテーブルと結合(置換)するというアプローチを考案した。
|
今後の研究の推進方策 |
FISMに関しては、今年度考案したFISMの新しいハードウェアアーキテクチャをFPGA上に実装し、その効果を実測するとともに、他のFISMアルゴリズムや他のデータマイニング処理への展開について検討する。また、いわゆるグラフマイニングの問題の効率的なハードウェアアーキテクチャの創出に向けて研究分野を拡大する。
|