让很多人纠结Navi架构没脱离GCN体系的一个重要原因就是Navi上依然是1个CU单元包含64组SIMD阵列,这点跟最初的GCN架构相比都没变化,不过AMD表示Navi上的CU单元重新设计了,2倍的标量单元、2倍的调度单元、单循环发射、双模执行单元,同时实现了资源合并,2个CU单元可以当做一个工作组处理器。
具体来说,Navi完整核心有40组CU单元,每组CU有2个标量单元、64个流处理器单元、4个64位双线性过滤单元,共计2560个流处理器、80个标量单元和160个64位双线性过滤单元。
与GCN架构相比,CU单元虽然都是64个流处理器单元,但具体结构是不一样的,GCN是4组SIM16阵列、4组SIMD4固定阵列,Navi是2组SIMD32、2组SIMD8阵列,而且支持Wave32、Wave64双模执行,这部分减少实际上是提高了效率,使得指令不需要频繁拆分,提高了单线程性能及单元利用率。
与此同时,RDNA的共享矢量、标准单元又翻倍到2组,简单粗暴提升了吞吐量,进而提升性能。
除了CU单元大升级之外,AMD在RDNA架构上还改进了多级缓存一致性,每个双CU组合内都有自己的L0缓存,与ALU单元的载入带宽翻番,增加了四组新的16-way 128KB L1缓存,降低了L2缓存(16-way 4MB)的拥堵,使得延迟和功耗大大减低。
从AMD公布的信息来看,L0级缓存延迟降低了21%,L1、L2缓存劫持降低了23%,内存延迟降低了8%。
RDNA架构第三点改进与图形渲染管线有关,增强了4个ACE异步计算引擎,带有4个原语单元的中心几何处理器可以统一处理矢量复用、原语汇编等命令。