本研究は、OpenCL言語で書かれた並列プログラムを入力として、そのプログラムを効率的に実行するハードウェア(LSI)を自動的に合成する技術を開発することを目標としている。本研究は、【a】超多数の同種スレッドを効率的に実行するデータパス・アーキテクチャ、【b】プログラムに応じてデータパス構成を自動的に最適化する技術、【c】並列動作する異種のタスクに対してハードウェア資源を分配する技術の3つのテーマから構成されているが、研究の進展に伴い、平成28年度より、テーマ【a】とテーマ【b】は融合して進めている。 テーマ【a+b】については、昨年度に引き続き、複数のCPUコアを階層的に接続するマルチ/メニーコア・アーキテクチャの研究と、専用データパスを自動合成する研究の2本立てで実施した。前者については、32コアから33コアへの拡張と、メモリアーキテクチャの工夫を行った。実際にFPGA上に実装し、アプリケーションプログラムを実行させることにより性能評価を行った。専用データパスの自動合成については、限られたハードウェア資源を有効活用するためのモジュール共有手法、および、体系的にループ最適化を適用する技術について研究を行った。更に、手書き文字を認識する人工知能を例題として、近似計算(Approximate Computing)を行う乗算器を設計した。 テーマ【c】については、可変な並列度を有する並列タスクに対するスケジューリングについて、研究を発展させた。特に、通信オーバーヘッドの考慮、非均質マルチコアへの対応、デッドライン制約の考慮などに対する拡張を行った。また、超多数のOpenCLスレッドをマルチコア上で効率的に実行する手法、非均質なマルチコアに対してOpenCLスレッドを割り当てる方法も改良した。
|