数据中心控制室的 IT 工程师运行生成式 AI 系统。

TE 对如何提高数据中心性能的看法

借助连接创新实现可扩展 AI 计算

作者:Sudhakar Sabada,数据和设备事业部高级副总裁兼总经理

随着人工智能 (AI) 模型变得越来越复杂, 数据中心正在改变其架构,以便更快、更高效地处理越来越多的数据。

 

AI 模型产生的业务洞察提高了各行各业的工作效率。从在金融机构提供 24/7 全天候客户支持的 AI 聊天机器人到可以实时分析患者数据并帮助提供商预测潜在并发症和更快地进行干预的医疗保健平台,数据驱动型计算系统的应用不断扩展。随着这些模型变得越来越复杂,它们需要使用的数据量也在不断增加。这还没有考虑生成式 AI 的发展,生成式 AI 依赖越来越大的语言模型,需要越来越多的计算能力来生成结果。

 

为了支持这些应用,数据中心在处理大量数据方面必须变得更加高效和有效。这种趋势正在改变数据中心使用的设备及其用来连接设备的技术。

开发可扩展的数据中心架构

有效支持 AI 工作负载需要具有更高带宽、更低延迟的系统。 处理密集型工作负载已经从传统上为计算机供电的标准中央处理单元 (CPU) 转向更强大的图形处理单元 (GPU) - 之所以如此命名,是因为它们最初设计用于通过同时执行大量相对简单的计算来呈现复杂的图像。GPU 成为运行需要在短时间内完成多个计算的 AI 应用程序的首选引擎。现在,人们正在通过张量处理单元 (TPU) 不断改进 GPU,以便进一步加快 AI 计算。

 

但是,单个处理器可以完成的工作是有限的。通过将处理器集群连接在一起,数据中心可以提高可用的计算能力。与构建这些集群相关的技术挑战是高效连接它们的能力。

AI 工程师对数据中心机架进行编程,以运行生成式 AI 架构。

设计数据中心架构的未来

连接器是实现可扩展性的关键

在多个组件之间快速可靠地移动大量数据需要一系列不同的连接器。 承担繁重工作的 GPU 和在整个过程中协调工作负载管理的 CPU 依靠插座和夹层连接器将它们连接到印刷电路板。高速电缆组件和电缆盒将服务器背板上的电气连接件连接到服务器上的电路板和其他组件。其他输入/输出 (I/O) 连接器将数据从一台服务器移动到另一台服务器,并跨多个服务器连接集群。

 

为了高效和有效地运行,这些连接器的设计必须符合外形尺寸规格,同时最大限度提高数据传输速度。目前最快的 AI 解决方案能够以每秒约 56 千兆位的速度传输数据。在已部署的系统中,这个数字将在未来一年左右增长到每秒 112 千兆位,并最终在两到三年后增长到每秒 224 千兆位。

 

随着数据速率的逐步提高,维持可靠信号以确保可靠系统性能的误差范围也会缩小。通过铜缆连接以每秒 224 千兆位的速率可靠地传递数据意味着连接器能够在极限物理条件下工作。除了这些严格的性能规格之外,工程连接器还必须具有足够的机械和热坚固性,以便能够在严苛的操作环境中使用。

 

为此,TE 设计并生产出各种具有适当功能的连接器,同时平衡了性能、成本、可靠性和耐用性。其中包括将加速计算处理单元安装到不同电路板上的连接器接口,以及用于植入用于控制整个系统中数据移动的处理器的插座。为了以极高的速度连接这些组件,TE 还开发出一系列用于进行高速板级连接的内部电缆组件、电缆背板组件,以及可简化系统集成过程并支持构建和扩展这些系统的模块化方法的墨盒及高速连接器,从而始终着眼于支持可行的最高速度和最低延迟。

助力 AI 计算

将数据移动到需要的位置只是成功的一半。 构成 AI 集群的组件也需要电力来完成其工作,并且通常情况下,更高的计算能力需要更多的电力来驱动它。分配这种电力还需要更高效的连接器,以支持获得高水平的系统性能。

 

为了支持计算密集型应用,这些组件还必须具有稳健性,以确保它们能够完全满足连续运行的要求。为了确保不断发展的架构持续满足这些严格的规范,组件制造商需要提供各种外形尺寸的电源线和连接器。

 

复杂的 AI 计算组件所需的更高电力也会产生更多热量,这使得散热成为一个关键问题。AI 系统前面板上的连接通常是最大的发热源之一,这使得该区域成为提高效率的重要目标。例如,TE 的 I/O 产品具有内置散热功能,可将热能从这些模块传输出去,并保持较低的运行温度,从而提高系统的整体效率和可靠性。

在前沿展开协作

为了在数据中心层面支持日益复杂的 AI 应用,对更高速度和带宽的需求基本上是无法满足的。 即使我们的客户在部署当今的解决方案时,他们也需要积极思考如何为下一步的数据中心发展设计更快、更高效的架构。

 

有时,设计到连接器中的功能可能会改变系统架构的方法。例如,当我们与一位客户在其系统的早期设计探索中密切合作时,我们的战略从基于板对板连接器的系统转变为使用基于电缆背板的系统,从而使设计更加灵活和高效。

 

这种创新之所以成为可能,是因为我们很早就与客户接触,了解他们当前的需求及其未来的愿景。随着 AI 帮助加速数据中心的转型,这种协作变得至关重要,它能确保我们继续以足够快的速度推动行业向前发展,从而满足对越来越多计算能力的激增需求。

关于作者

Sudhakar Sabada, SVP & GM, Data & Devices

Sudhakar Sabada

Sudhakar Sabada 是 TE Connectivity 数据和设备事业部的高级副总裁兼总经理。在该职位上,他负责部门的整体损益,该部门广泛服务于电子行业,涵盖云、人工智能、大型企业、电信和商业零售细分市场。他还负责监督物联网 (IoT) 业务的发展,为生活的各个方面带来通信解决方案和创新。他负责领导实施业务和产品战略,开展上市活动以及工程设计和制造工作。