研究課題/領域番号 |
16J05641
|
研究機関 | 慶應義塾大学 |
研究代表者 |
森島 信 慶應義塾大学, 理工学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2016-04-22 – 2019-03-31
|
キーワード | GPU / NoSQL / ビッグデータ |
研究実績の概要 |
本研究では、ビッグデータ利活用の基盤となるデータベースであるNoSQLを高速化する手法として、多数のGPUをEthernetのネットワーク経由で接続し、それらのGPU上にDBのキャッシュを構築する分散GPUストアの実現を目標とし、以下の4つの実績をあげた。 (1)ドキュメント指向型データベース(以下DDB)の分散GPUストアを用いた高速化:DDBの重要なクエリは、条件に合う文字列を検索する文字列検索クエリである。本研究では、複数のドキュメントの文字列をGPUで扱いやすい大きさの多数の配列にまとめ、ハッシュ機構を用いて管理することで、多数のGPUへの効率的な分散を可能にし、正規表現探索を含む文字列検索クエリを高速化した。 (2)グラフ型データベース(以下GDB)の分散GPUストアを用いた高速化:GDBには、豊富な機能を提供するために複雑なデータ構造となっているため、クエリの性能があまり高くないという問題点がある。本研究では、グラフ探索に必要最小限のグラフ構造のみを抽出し、GPU処理に適した構造のキャッシュを作成し、複数のGPUで分散処理することで、GDBの豊富な機能を維持しつつ、クエリの性能を大幅に向上させた。 (3)リモートGPUにおけるグラフ処理における効率的なGPU間同期手法の提案:(2)において複数GPUでグラフの分散処理を行ったところ、処理中のGPU間の同期により、性能向上が目減りしてしまうことが分かった。そこで、GPU間の同期を部分的に非同期に行い、転送の回数を抑えつつ、GPUの計算処理と同期処理を重複実行することで同期のオーバーヘッドを削減する手法を提案した。 (4)リモートGPUのVRアプリケーションへの応用:本研究で用いるリモートGPUシステムは応用範囲が広く、その一つとしてVRアプリケーションに本システムが応用できることを示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究は、複数種類のNoSQLを組み合わせたポリグロット永続化を分散GPUストアを用いて高速化することを目的としており、計画では、28年度はその第一段階として、個々のデータベースにおいて分散GPUストアに適したデータ構造やキャッシュ方法、データ管理手法等を明らかにすることとしていた。 NoSQLのうち、特にクエリの計算量が大きく、GPUによる高速化が求められるのはドキュメント指向型データベースとグラフ型データベースである。研究実績の(1)と(2)で述べた通り、28年度にはこの2種類のデータベースにおいて計画で明らかにするとしていた事柄を明らかにし、その結果これらの高速化に成功した。 グラフ型データベースにおいては、高速化において、研究業績の(3)で述べた通り、同期によって高速化が阻害される問題が発生したが、28年度中に効率的な同期手法を提案し、この問題を解消した。 これらのことから、28年度は当初計画していた研究内容を達成しているため、研究は順調に進展していると言える。 また、研究業績の(4)で述べたように本研究の当初の対象でなかった分野にも本研究で用いた技術が応用可能であることを示せたことは、当初の計画以上の成果と言える。28年度に行ったVRアプリケーション以外にも応用可能な分野は広く存在すると考えられるため、今後も積極的に本研究の成果の応用も行いたいと考えている。
|
今後の研究の推進方策 |
進捗状況で述べた通り、28年度の研究は順調に推移しているが、成果の発表については、研究実績の(1)で国際ワークショップでの発表と(2)と(3)で国内研究会の発表を行ったのみで、まだ十分とはいえない。そのため、今後は、研究を進めると同時に28年度の成果を国際会議や論文誌への投稿を通じて積極的に発表を行う。 今後の研究としては、当初の計画に基づき、複数のNoSQLを組み合わせたポリグロット永続化の高速化のため、28年度の成果で得られたグラフ型データベースとドキュメント指向型データベースのそれぞれの高速化手法を組み合わせて利用する手法を検討する。具体的には、双方のデータベースのデータを扱えるキャッシュのデータ構造やどのように各データベースからデータをキャッシュするかのキャッシュポリシー等を検討する。 これまでの研究では、分散GPUストアで用いるEthernetはNECのExpEther10Gというデバイスを用いて、10Gbの帯域を想定していた。しかし、現在はExpEther10Gの次世代としてExpEther40Gが開発され、40Gbの帯域での分散GPUストアの実現が可能になった。40GbEでの分散GPUストアでは、より多くの転送量を許容できるなど、10GbE環境とは特性が異なると考えられるので、分散GPUストアの40GbEへの対応も行う。 また、これらの研究と並行して、研究業績(4)のようなNoSQL以外への応用を模索し、本研究の成果の幅広い分野への応用を進めていく。
|