得益于NVIDIA与台积电深度合作的TSMC4N制程工艺,GeForceRTX4090核心面积仅是608mm²(上代RTX3090Ti628mm²),在更小的核心面积下却能塞下多达760亿个晶体管,比上一代的Ampere架构多出了约70%晶体管数量。
值得注意的是,制程工艺的提升不单能拥有更多的晶体管,其核心频率更是能跑得很高,GeForceRTX4090Boost频率就已经达到了2520MHz,这样在核心频率与高规格的双向保证下实现了比上代显卡高达2倍的性能功耗比。
从GTC2022秋季大会中,其实我们就已经发现了,目前GeForceRTX4090显卡中配备的AD102-300核心其实并非完整的AD102核心。完整的AD102核心应该包括了12个GPC(图形处理集群)、72个TPC(纹理处理集群)、144个SM(流式多处理器)和⼀个带有12个32Bit显存控制器的384Bit显存位宽。
再来看上面的GeForceRTX4090架构图,和完整版本的AD102核心对比起来就很容易看出差别。首先,GeForceRTX4090核心代号为AD102-300,其拥有9个完整规格的GPC(图形处理集群,每个内建6个TPC),与2个非完整的GPC(图形处理集群,每个内建5个TPC),共组成了64个TPC,那么SM单元自然就是128个了。至于显存位宽方向那是相当的完整——384Bit。
如果你还是不太懂,这里笔者就逐一为了AdaLovelace架构显卡的构成。
刚才我们已经说到,一个完整的AdaLovelace架构AD102核心内部拥有12个GPC,而每个完整的GPC中包含了一个专用的RasterEngine(光栅化引擎),两组ROPs共16个ROP(光栅化处理单元),以及6个TPC与12个SM单元。
2ADA技术讲解
全新的SM流式多处理器