多年来,移动处理器的生产商致力于优化设计,以在有限的功耗预算、存储空间和带宽范围内获得最佳性能。过去,显然这些考量因素在数据中心或个人电脑(PC)等市场并未得到重视。如今,传统数据中心和PC市场的变革正在悄然发生——改变处理器设计规则,让开发人员重新考虑其芯片架构以获得更高的性能功耗比。
移动处理器设计原则运用于PC和数据中心
今天,越来越多的云游戏、数据挖掘、人工智能/数据分析和高性能计算均在云端实现。虽然这些应用的要求各不相同,但在不断提高计算量的要求方面如出一辙。
数据中心无法通过不断扩大物理占地面积来满足这一需求。为了将运营支出(OpEx)保持在可接受的范围内,以及实现净零(Net Zero)目标,企业需要在有限的空间内增加计算密度,从而获得更高的计算性能。图形处理器(GPU)、中央处理器(CPU)、人工智能(AI)加速器等处理元件必须在最小的功耗/散热和面积预算内实现最高的性能。为此,遵循移动设计原则进行处理器的设计是一个理想的出发点。
分析PC市场的趋势,也可以得出相似的结论。在传统PC模式下,大部分功能被各自集成为一个个的独立模组。但是,随着大多数组织希望扩大混合办公模式,人们逐渐用笔记本电脑取代台式机。将越来越多的功能(包括图形处理、神经网络加速、安全、I/O等)集成到具有统一存储器架构的单个系统级芯片(SoC)中,既可以提高性能,又能将功耗保持在最低水平。因此,下一代PC处理器看起来越来越像是智能手机处理器。
大型科技公司借助定制芯片设计实现差异化
随着摩尔定律的终结,行业再也不可能每两年出现一次性能提升。在此背景下,企业纷纷加入这场设计“竞赛”,争相以最佳的芯片,打造最好的用户体验。
全球大型科技公司早已深谙此道,有备而来。它们正着力自主设计定制芯片,以用于消费类产品、PC或数据中心等。这些公司从现成可用的芯片转向定制芯片,寄厚望于更好地掌控设计,赢得优势。因此,我们看到亚马逊投资于Graviton CPU设计,谷歌推出了以TPU为中心的Tensor CPU。苹果公司的M1处理器将为Mac电脑带来一款借助移动设计原则进行优化的芯片,提供更高的集成度和更出众的性能功耗比。
OEM替代方案
对于没有内部硬件和软件设计团队,尚未着手开发定制芯片的原始设备制造商(OEM)而言,他们面临的挑战在于如何让自己的设计脱颖而出,与高度优化的架构相媲美。这些OEM使用的芯片大部分都是现成可用的,可能会使他们处于劣势。许多为PC和数据中心设计的芯片是“暴力”解决方案,虽然可以提供所需的性能,但通常过于耗电,太占用内存/带宽,缺乏竞争力。此外,这些芯片在可用的特定软件和操作系统方面也存在限制。
部分移动市场的SoC供应商开始进入数据中心和PC市场,期望瓜分现有玩家的部分市场份额,但它们的数量少之又少,很难帮助OEM厂商实现既创新又控制成本的差异化。因此,一些行业替代方案正在应运而生。我们不乏看到很多厂商正在考虑基于RISC-V架构的CPU 解决方案。但是,单一的CPU设计无法完全解决OEM目前面临的激烈的竞争困局。OEM需要放眼整个数据中心的架构结构提升整体方案的创新,从而增加自身的竞争力。
可扩展的异构架构是关键
通过异构计算,灵活利用CPU,GPU等计算单元,实现硬件最大利用率以达到计算性能的优化提升,同时满足效率和功耗比优化。异构计算架构为数据中心不断提高的计算量要求提供了灵活阵列工作方案。目前很多半导体厂商都在研究相关的产品和应用,以赋能OEM市场竞争力。传统的GPU IP 公司Imagination 就在去年推出了其CPU产品线,并强化了异构计算的研发,意图通过产品组合的优化提升,给客户提供更加完善的异构计算解决方案,从而更好的服务客户以适应未来高性能计算的需求。
移动GPU奠定基础
移动GPU是打造高效异构设计的理想切入点。与试图将高端GPU强行纳入移动功耗预算范围相比,把移动GPU升级应用于数据中心和PC领域将更加有意义。因为移动GPU天生为”小而美”而生。移动GPU厂商开发拥有很多专利技术,以最大程度的实现GPU高性能低功耗。在数据中心和PC粗放式单一追求高性能GPU的背景下,这些技术优势可以让移动GPU厂商更加具有竞争优势,并给OEM提供更多的管理附加价值。
提及移动GPU的专利技术,不得不又再次提及Imagination这家专注于GPU设计的老牌企业。和它的对手相比,Imagination 多年来把主要精力放在了GPU领域的研究中,尤其是在更复杂的GPU渲染领域,Imagination是很多技术的先驱开发者, 例如GPU硬件虚拟化,分块式延迟渲染(TBDR), 实时硬件光线追踪(Ray Tracing) 等。分块式延迟渲染(TBDR)技术是将几何数据分割成小区域(图块),并统一处理。由于每个图块都经过光栅化和单独处理,渲染的尺寸非常小,因此可以将所有数据保存在快速运行的片上存储器中。这项技术为M1的图形处理奠定了基础。
对于诸如安卓云游戏等应用场景,数据中心需要灵活处理多个用户的不同游戏消费场景。在多个小型GPU上处理多个小型并发工作负载的方法比使用传统桌面GPU更高效。云游戏产业链都在强化GPU硬件虚拟化技术的开发应用以降低成本。移动GPU通过向上扩展分散式多核移动GPU架构,使每个GPU既可支持更多用户,同时为云端的许多用户提供更高的能效。
以芯动科技(Innosilicon)为例,作为国产高端GPU第一芯的行业领头羊,该公司基于Imagination 移动GPU IP的基础上,把移动GPU架构向上扩展至高性能服务器级别的硬件,旨在打破台式机显卡市场的现有格局。在这个长期由双寡头垄断的高端市场中,没有人预料到会出现新的竞争对手,但芯动科技正在利用不断变化的市场力量和高度可扩展的高效技术提供替代方案。
增加高效的片上AI处理(正如M1所示)是OEM的另一个机会。由于片上AI处理尚未成为PC的标准,OEM可以利用这项能力来支持超分辨率降噪、音频命令、安全等新兴应用。这种AI功能通常需要巨大的计算能力,而使用基于移动设计原则设计的神经网络加速器(NNA)IP便可以在SoC上集成高效、高度可靠的AI推理功能。在端侧的AI边缘加速器领域,相较于其他竞争对手,Imagination的NNA 边缘加速器硬件不仅继承了其GPU设计的高性能低功耗的DNA,同时在不同的数量级的计算领域都有高于竞争对手的优异表现。