深層ニューラルネットワーク(DNN)は要求される計算量とともに大きなモデルサイズが問題となっている。特にDNNモデルの重み等のパラメータをアクセラレータの外部メモリから読み出すための消費電力は非常に大きく、エッジ機器でのAI応用の発展に向けてこれを削減することが強く望まれている。2020年には軽量なDNNモデルを実現するアルゴリズムとして、重みを学習しないという特徴を持つ「隠れニューラルネットワーク理論」が提案された。 該当年度では、この隠れニューラルネットワーク理論に基づいた高効率な推論を実現するアーキテクチャを世界で初めて提案した。隠れニューラルネットワークの重みは乱数固定であるため、従来のDNNとは違い、学習時と同じ乱数生成器と乱数シード値があれば再生成することができ、重みの値を記憶しておく必要がなくなる。そこでハードウェアとして乱数生成器を配置し、乱数生成のためのシード値自体も実行時の内部パラメータから生成することで、重みに対する外部アクセスを完全にゼロにできることを見出した。また、重みの結合状態を表すスーパーマスクについては、0の値が多いことを利用した圧縮が可能であることを発見し、スーパーマスクを事前に圧縮してそれをチップ上で展開することにすれば、外部からの転送量を抑えられる。このように、重みとスーパーマスクからなる隠れニューラルネットワークのモデルに対して、重みの乱数生成回路とスーパーマスクの展開回路によってチップ上でモデルを構築することで、外部メモリアクセスを大幅に削減できる。 このアーキテクチャに基づいて、40nmプロセスでプロトタイプチップを設計・試作した。本チップはモデルの転送量を二値化ニューラルネットワークの半分に抑えながらも最大35.8TOPS/Wという高い演算効率を達成した。
|