オンチップマルチプロセッサは複数のプロセッサを単一チップ上に集積するため、プロセッサ間の通信時間を短縮することができる。本研究はこの特徴を利用してスレッド間通信が頻繁でスレッドの粒度が小さい非数値計算の高速化を目指している。 今年度は、以下の課題について研究を行った。 (1)1台のプロセッサ上でマルチスレッディングを行うことでハードウェア使用効率を高めることができるが、物理レジスタの規模の増大と、通信オーバヘッドの増大を引き起こすため、これらを解決するレジスタ通信機構の実装と評価を行った。 (2)各スレッドが使用できる物理レジスタ数には限りがあり、利用可能な並列性を十分に抽出できないため、物理レジスタの2段階解放を行い、スレッド内の並列性を高める効果を評価した。 (3)粒度が小さい非数値計算の並列性を抽出するために、プログラムの分割レベルと、スレッド間の制御依存を緩和する投機的技術について、最も有効な組み合わせを明らかにし、評価した。 (1)の結果:複数のスレッドで物理レジスタを共有し、ノンブロッキング通信を行う機構を考案し、実装した。SPECint95で評価した結果、4スレッドを並列に実行した場合、従来方式のほぼ半分である128個の物理レジスタで、ほぼ最高性能(IPC=3.5)を得た。 (2)の結果:単一スレッドにおいて物理レジスタを2段階に分けて解放した場合、SPECfp2000において、物理レジスタ数64個で、平均32%もの性能向上を達成することができた。 (3)の結果:基本ブロックレベルで非数値計算プログラムをスレッド分割し、投機的なスレッド実行と投機的なスレッド通信を行った場合、スレッド間の並列性を最も引き出すことが可能であることを明らかにした。この組み合わせにより、単一スレッド実行に比べて、平均で約10倍の性能を達成できることを明らかにした。
|