# 科学研究費助成事業 研究成果報告書 平成 28年 6月 8日現在 機関番号: 15401 研究種目: 挑戦的萌芽研究 研究期間: 2013~2015 課題番号: 25540024 研究課題名(和文)FPGAを用いた汎用計算技術GPFPGAを実現するための開発環境の構築 研究課題名(英文)Development tools and environment for General-Purpose computing on FPGA (GPFPGA) ### 研究代表者 中野 浩嗣 (Nakano, Koji) 広島大学・工学(系)研究科(研究院)・教授 研究者番号:30281075 交付決定額(研究期間全体):(直接経費) 2,800,000円 研究成果の概要(和文):本研究の目的はGPFPGAの手法を開発し,FPGAによる汎用計算の可能性を明らかにすることである.そのため,FDFMアプローチを考案した.これは少ない個数のDSPプロックとメモリブロックで専用プロセッサを構成するものである.このアプローチにより,次の処理をFPGAにより高速化した.(1)リアルタイム直線検出(2)画像中の円検出(3)RSA公開鍵のプレイク(4)LZW法を用いたデータの圧縮(5)上位k番目の選択(6)多倍長演 実験結果より,ソフトウェアのよる計算処理より100倍程度の高速化が可能な場合もあった.このことより,FDFMア プローチが汎用計算に対して効果的であることが示せた. 研究成果の概要(英文): The main purpose of this work is to develop a GPFPGA(General Purpose computing using Field Programmable Gate Arrays) method and to show capability of general purpose computing using FPGAs. For this purpose, we have developed FDFM approach (Few DSP slices Few Memory block approach), which implement a special-purpose processor using few DSP slices and Few Memory blocks in an FPGA. By this approach, we have accelerated the computation as follows: (1) real-time line detection in an image using Hough transform, (2) circle detection in an image, (3) breaking RSA keys in a network, (4) LZW-compression/decompression (4) Top-k selection, (6) multiple-precision arithmetic. Experimental results show that our FPGA implementation may be 100 times faster than conventional CPU implementation. This fact implies that FDFM approach is very efficient for general-purpose computing. 研究分野: 情報工学 キーワード: FGPA ハードウェアアルゴリズム 開発環境 #### 1.研究開始当初の背景 FPGA(Field Programmable Gate Array)は,ユーザーが書き換え可能なFPGAである FPGAは,CLB(Configurable Logic Block),DSP slice 及び Block RAM から構成される.CLBは組み合わせ回路や順序回路を埋め込むことができる.DSP slice は乗算器,加算器やレジスタなどを持っている.Block RAM は小容量のデュアルポートメモリである.基本的にFPGAは信号処理の高速化をターゲットに設計されており,DSP sliceやBlock RAMをいかに効果的に用いるかという点が、FPGAを加水に高速計算の鍵である.しかし、FPGAを効果的に利用するのは容易でなく、信号処理以外の汎用の計算を行うのは極めて困難である. #### 2.研究の目的 本研究では,FPGAを用いた汎用計算(GPFPGA,General Purpose Computing on FPGA)の考え方を導入し,そのための設計手法や開発環境を構築することにある.その結果,一般的な計算処理を FPGA で容易に行うことができるようになる. ## 3.研究の方法 FPGA の DSP slice や Block RAM を効果的に用いるためのツールを開発する. それを用いて,具体的な一般の計算処理に適用し,GPFPGAの考え方による FPGA 利用が効率よく実現可能であることを示す. #### 4. 研究成果 FPGA を用いた汎用計算(GPFPGA, General Purpose Computing on FPGA)を実現する方法 として, FDFM アプローチ(Few DSP slices and Few Memory blocks)を考案した.最新の FPGA は, DSP slice と Memory block (Block RAM) を大量に,多いものでは2000個以上もっ ている.DSP Slice は,信号処理で用いる演 算を行うための組み込みハードウェアであ る.乗算器,加算器,ビット毎の論理演算, パイプラインレジスタ,セレクタなどを内蔵 している.これらの接続や設定を変更するこ とにより,信号処理で用いられる畳み込み演 算が高速に行える.また,Block RAM は小容 量(18kビット)のメモリであり,独立制 御可能な2つのポートをもち,高速アクセス が可能である .FPGA 設計ではこれら 2 種類の 組み込みハードウェアをいかに巧妙に用い るかという点が重要である. FDFM アプローチでは少数の DSP slice と少数の Block RAM を組み合わせて,特定用途のプロセッサを構成する.最小構成は,1つの DSP Slice と1つの Block RAM である.最新の FPGA では,2000個以上の DSP Slice と Block RAM を持つので,2000個以上の特定用途のプロセッサを構成することもでき,並列処理による最大限のスループットを得ることもできる. この FDFM アプローチにより,次の6つの成果を得た. (1)ハフ変換による画像のリアルタイム直線検出(引用文献 ) 画像の輝度勾配情報を利用したハフ変換により検出精度のよい直線成分抽出ハードウェアを FPGA に実装した.回路は260MHzで動作し,スループットは,ほぼ1ピクセル/クロックサイクルである.よって,一秒間に約260万ピクセルの直線成分検出が行える. ### (2)画像中の円検出(引用文献) 2値画像中の円を検出するハードウェアを設計し、FPGAに実装した.400×400の画像に対する円検出は、970434クロックサイクルで行える.動作周波数は181 MHz なので,約5 ms で円検出を完了させることができる.この処理時間は、CPUによるソフトウェア処理の場合に比べて,約189倍高速である. (3) RSA 暗号化キーの分解(引用文献) 2 つの RSA 暗号化において,暗号化キーが素 数を共有するとき,最大公約数を求めること により, 復号化キーを簡単に求めることがで きる.つまり,暗号文の解読が簡単に行える ようになる.このような欠陥のある暗号化キ ーを大量のキーの集合から求めるハードウ ェアを設計し, FPGA に実装した.設計したハ ードウェアはあらゆる暗号化キーの組み合 わせに対して,ユークリッド互除法により最 大公約数を求める.DSP ブロックを効果的に 利用することにより,これまでに知られてい る最高速の GPU を用いた計算処理にくらべて 約6倍の高速化を達成した.また, CPU によ る逐次処理に比べて約500倍高速である。 (4)可逆圧縮 LZW 法による展開の処理の高 速化(引用文献) オリジナルのデータが復元可能な可逆圧縮 法である LZW 手法の展開ハードウェアを設計 した.設計した回路は13個の Block RAM を 用いており, LZW 展開を高速に行うことがで きる.この LZW 展開プロセッサは, CPU によ る LZW 展開に比べて約2.16倍高速である. また,150個の LZW 展開プロセッサを並べ て同時に動作させた場合,約264倍高速で ある. (5)マージソート回路による上位k番目の 選択回路(引用文献 ) Block RAM をバッファに用いたマージソートによりソーティングを行う回路を設計した.この回路はこれまでの入力の上位 k 番目を出力し続ける回路である.メモリの割当を工夫し,使用量を約半分に削減することができた. (6)多倍長演算プロセッサ(引用文献 ) 多倍長演算を行うハードウェアアルゴリズムの設計は困難である.そこで,多倍長演算を機械語命令としてもつプロセッサを FDFM アプローチにより設計した.このプロセッサではソフトウェア的に多倍長演算を行うこ とができ、開発が用意になる.このプロセッサは1個の DSP slice と2個の Block RAM を用い,約310MH z で動作する.応用としてRSA 暗号化をソフトウェア的に実装した.その結果,2048ビットの暗号化処理が約600ms で行うことができた.また,306個のプロセッサを並べることも可能であることを示した. #### < 引用文献 > Xin Zhou, Yasuaki Ito, Koji Nakano, An Efficient Implementation of the Gradient-based Hough Transform using DSP slices and block RAMs on the FPGA, Proc. of International Parallel and Distributed Processing Symposium Workshops, pp. 762-770, May 2014 Xin Zhou, Yasuaki Ito, Koji Nakano, An Efficient Implementation of the One-Dimensional Hough Transform Algorithm for Circle Detection on the FPGA, Proc. of International Symposium on Computing and Networking, pp.447-452, Dec, 2014. Xin Zhou, Koji Nakano, and Yasuaki Ito, Parallel FDFM Approach for Computing GCDs Using the FPGA, Proc. of International Conference on Parallel Processing and Applied Mathematics (PPAM 2015, LNCS 9573), pp. 238-247, 2015. Xin Zhou, Yasuaki Ito, and Koji Nakano, An Efficient Implementation of LZW Decompression in the FPGA, to appear in Proc. Of International Parallel and Distributed Processing Symposium Workshops, 2016 Naoyuki Matsumoto, Koji Nakano, Yasuaki Ito, Optimal Parallel Hardware K-Sorter and Top K-Sorter, with FPGA implementations, Proc. of International Symposium on Parallel and Distributed Computing, pp. 138-147, June 2015. Tatsuya Kawamoto, Yasuaki Ito, Koji Nakano, A flexible-length-arithmetic processor based on FDFM approach in FPGAs, Proc. of International Symposium on Computing and Networking, pp. 364-370, December 2015. ## 5.主な発表論文等 〔雑誌論文〕(計4件) Tatsuya Kawamoto, Xin Zhou, <u>Yasuaki Ito</u>, <u>Koji Nakano</u>, An FPGA implementation for a flexible-length-arithmetic processor employing the FDFM processor core approach, IEICE Transactions on Information and Systems, 査読有, December 2016 (採録決定). Xin Zhou, <u>Koji Nakano</u>, <u>Yasuaki Ito</u>, Efficient Implementation of FDFM Approach for Euclidean Algorithms on the FPGA, International Journal of Networking and Computing, 查読有, July 2016(採録決定). Xin Zhou, Norihiro Tomagou, Yasuaki Ito, Koji Nakano, Implementations of the Hough Transform on the Embedded Multicore Processors, International Journal of Networking and Computing, 査読有, Vol. 4, No. 1, pp. 174-188, January 2014. http://ijnc.org/index.php/ijnc/article/view/79 Yuki Ago, <u>Yasuaki Ito</u>, <u>Koji Nakano</u>, An FPGA implementation for neural networks with the FDFM processor core approach, International Journal of Parallel, Emergent and Distributed Systems, 查読有, Vol. 28, No. 4, pp. 308-320, 2013. DOI: 10.1080/17445760.2012.684686 #### 〔学会発表〕(計6件) Xin Zhou, <u>Yasuaki Ito</u>, <u>Koji Nakano</u>, An Efficient Implementation of LZW Decompression in the FPGA, International Parallel and Distributed Processing Symposium, シカゴ(米国), 2016年5月23日. Xin Zhou, <u>Koji Nakano</u>, <u>Yasuaki Ito</u>, Parallel FDFM Approach for Computing GCDs Using the FPGA, International Conference on Parallel Processing and Applied Mathematics, クラクフ(ポーランド), 2016年9月7日. Tatsuya Kawamoto, <u>Yasuaki Ito</u>, <u>Koji</u> <u>Nakano</u>, A flexible-length-arithmetic processor based on FDFM approach in FPGAs, International Symposium on Computing and Networking, 札幌産業振興会館(札幌), 2015年12月10日. Naoyuki Matsumoto, <u>Koji Nakano,</u> <u>Yasuaki Ito</u>, Optimal Parallel Hardware K-Sorter and Top K-Sorter, with FPGA implementations, International Symposium on Parallel and Distributed Computing, リマソール(キプロス)2015年6月30日 Xin Zhou, Yasuaki Ito, Koji Nakano, An Efficient Implementation of the One-Dimensional Hough Transform Algorithm for Circle Detection on the FPGA, International Symposium on Computing and Networking, グランシップ (静岡), 2014 年 12月9日 Xin Zhou, Yasuaki Ito, Koji Nakano, An Efficient Implementation of the Gradient-based Hough Transform using DSP slices and block RAMs on the FPGA, International Parallel and Distributed Processing Symposium Workshops, フェニックス(米国), 2014年5月19日 ## 6.研究組織 (1)研究代表者 中野 浩嗣 (Koji Nakano) 広島大学・大学院工学研究院・教授 研究者番号:30281075 (2)研究分担者 伊藤 靖朗 (Yasuaki Ito) 広島大学・大学院工学研究院・准教授 研究者番号: 40397964