2015 Fiscal Year Annual Research Report
多倍長積分計算を高速化するアクセラレータとソフトウェアのコ・デザイン
Project/Area Number |
15H03602
|
Research Institution | Hitotsubashi University |
Principal Investigator |
台坂 博 一橋大学, 大学院商学研究科, 准教授 (80399295)
|
Co-Investigator(Kenkyū-buntansha) |
湯浅 富久子 大学共同利用機関法人高エネルギー加速器研究機構, 計算科学センター, 准教授 (00203943)
中里 直人 会津大学, コンピュータ理工学部, 上級准教授 (00392051)
似鳥 啓吾 国立研究開発法人理化学研究所, 計算科学研究機構, 研究員 (80600824)
石川 正 大学共同利用機関法人高エネルギー加速器研究機構, 計算科学センター, 准教授 (90184481)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 多倍長精度演算 / アクセラレータ / FPGA / ファインマンループ図形積分 / エルミート積分 |
Outline of Annual Research Achievements |
本研究では、多倍長浮動小数点演算(以下、多倍長演算)を用いた積分計算の高速化を実現するために、ハードウェアとソフトウェアの両面による高速化を実現し、実アプリケーションでの検証によりその有用性を実証することを目的としている。具体的には、最適化された多倍長演算用プロセッサエレメント(以下、PE)とプロセッサ(以下、MP)の開発、および、それらを実装したFPGAボードからなるアクセラレータシステムの開発、OpenCL/CUDAによる高速な多倍長演算手法の確立、および、多倍長演算を必要とする多次元数値積分(ファインマンループ図形積分)と重力多体系の軌道計算(高次エルミート法)について高速化の実現である。 平成27年度は、これまでに我々が開発したアクセラレータを基盤として更なる高速化のための基礎調査を行い、その結果を元にPEとMPのデザインと専用アクセラレータコード生成用バックエンドシステムの最適化の検討を行った。まずは多次元積分の場合について、最適化したPE/MPをFPGAボードに実装し、その性能評価を行った。8倍精度演算では、ボートあたりの性能が、これまでに比べて約5倍の高速化が達成された。 並行して、OpenCL/CUDAでの4倍精度浮動小数点演算のライブラリ構築が完了した。汎用計算機上での多倍長演算の高速化を実現した。 さらに、我々のターゲットアプリケーションであるファインマンループ図形積分に関しては、主に、2ループ・ボックス型(6次元積分)を高速化に計算するための定式化を行った。 このループ積分には、様々なパラメータがあるが、過去の研究で採用されたパラメータを用いた計算を行い、より高精度の結果を短時間で得られることを示した。エルミート積分法の関しては、10次、12次の積分公式の定式化を行い、軌道計算による検証を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
PEとMPのデザインに関しては、高速化に必要なアーキテクチャと回路設計を検討するために、様々なアルゴリズムやPEの構成のパターンについて基礎的な演算性能を評価した。現状のPEは浮動小数点加算器と乗算器が独立に動作する構成になっているが、計算の性質によっては加算機と乗算器を融合したFused-Multiple-Add(FMA)型の構成が望ましいこともある。多次元積分に関して、FMA型を演算器を採用した場合の性能改善率を見積った結果、期待した改善が得られないことが判明した。一方、MPの改善と新たなFPGAボードを採用が、性能改善には大きく寄与することが分かった。新たなアクセラレータとして用いるFPGAボードの入荷が遅れたが、評価の結果を反映したPE/MPをFPGAボードに実装し、性能測定を行った結果、期待した性能が得られた。ハードウェアとしては想定した性能に到達できたと考えている。 OpenCLでの実用的な多倍長演算ライブラリに関しては、4倍精度浮動小数点演算のライブラリ構築が完了した。これにより、高速処理のボトルネックになっていたホスト計算側での多倍長演算処理が解消できたと考えている。 これらと同時に応用計算の定式化を行った。エルミート積分法では、高次積分の定式化を行い、10次、12次の公式を導出した。この公式を用いて軌道計算を行い、導出した公式の検証を行った。ファインマンループ図形積分で、主に、2ループ・ボックス型(6次元積分)を高速化に計算するための定式化と数値計算を行った。 ハードウェアとソフトウェア、ファインマンループ図形積分に関しては、共同研究者らと、ICCS、日本物理学会や応用数理学会で発表を行った。
|
Strategy for Future Research Activity |
専用ハードウェアの更なる最適化による性能向上と専用システムの構築、より精度の高い多倍長演算が可能なライブラリの構築、専用システム構築、実アプリケーションによる有用性の検証を進める。 平成28年度は、ソフトウェアに関しては、OpenCL/CUDAによる実用的な6倍、8倍精度演算ライブラリの構築を行う。すでにGPUによる高速化が実現されているDD方式及びその拡張方式は指数部11ビットであり実アプリケーションにおいてダイナミックレンジ不足する可能性があるため、指数部ビットを拡張したライブラリを構築する。また、OpenCL/CUDAによる多倍長演算ライブラリの構築だけでなく、 Gooseコンパイラによる統一的プログラミング環境の実現する。Gooseコンパイラは指示行ベースのコンパイラであり、専用システムを容易に利用するために開発しているものである。統一的なプログラミング環境を提供するために、Gooseが多倍長演算ライブラリを利用できるようにGooseを拡張する。拡張の基本設計と性能評価を行う。 高次エルミート積分の実アプリケーションへの応用、および、専用システムへの実装の検討に関しては、構築した高次エルミート積分法を複数の粒子の軌道計算(中心重力場中の天体運動)へ適応する。専用システムへの実装に際しては、PEのレジスタや演算器、MPのメモリの更なる最適化を行う必要がある。それらの検討も行う。 ファインマンループ図形積分の数値計算に関しては、計算したいファインマンループ図形は多種存在するため、引き続き様々な図形に対して適応精度の手法の開発、コードの開発、および被積分関数の導出と数値計算を行うGPUによるループ積分を含めた計算の高速化についても検討する。 専用システムとしてFPGAボードを4枚搭載したシステムを構築する予定あるため、その前段階として小規模なシステムを構築し検証を行う。
|
Research Products
(6 results)