TE观点
要实现人工智能持续创造收益,数据中心必须提速——大幅提速。 虽然AI模型随着迭代训练不断优化,但当前训练过程仍耗时过长。瓶颈在于训练AI模型的图形处理器(GPU)数据传输量存在局限。行业已展开一场加速竞赛。在此过程中,行业不仅要升级基础设施以更快处理更多数据,还必须应对两大同步激增的需求:为复杂计算提供充足电力,以及为新增基础设施产生的大量热量做好散热管理。
更复杂的是,系统架构师几乎得“边飞行边造飞机”:在必须与设备及组件制造商携手最大化现有基础设施性能的同时,又要为即将到来的更高速度提前规划升级与扩容。
AI终端用户或许能在数秒内获得答案,但训练尖端模型却需要时间——大型基础模型通常需要两到四个月。 这种时间延迟限制了企业将新数据转化为优化模型与商业价值的速度。缩短从训练到部署的周期不仅是技术优势,更是经济效益的必然要求。
以新建汽车装配线为例:生产系统从首日即可生成关于产能、质量与效率的丰富数据。理论上这些数据能立即用于优化运营。但AI训练周期的长度意味着制造商需等待数月,才能通过重新训练的模型获得可执行的改进方案。
通过加速算法训练,企业将能更快部署经AI优化的流程,实现效率提升与成本节约。这正展现了数据中心机柜内的创新速度如何产生深远影响。
数据中心的架构正因速率提升而变革。 当前800Gbps光模块已广泛普及,1.6Tbps模块也即将面世。高速连接的演进使得铜缆实际可用长度缩短,推动更多数据流量向光缆迁移。这一转变催生了对低功耗架构解决方案的关注:线性可插拔光器件已进入商用阶段,共封装光学技术仍在持续发展。在机柜内部,通过聚合GPU以消除训练与大批量推理任务中的通信瓶颈,正成为架构演进的重要方向。
数据中心实施这些架构升级的时机,取决于现有基础设施满足客户需求的能力。与组件制造商共同规划升级路径,可有效提升基础设施改造效率。现阶段采用模块化、输入/输出无关的接口基板,能为未来升级奠定基础。恰当的过渡方案还能确保数据中心在未来更换模块类型时,继续使用现有光缆与基板架构,实无需重新设计整个服务器机箱即可持续提升速率。

提升速率与容量的扩展不仅发生在连接层面, 还包括服务器机柜内部及跨机柜的协同扩展。为实现机柜内部的纵向扩展,使其更快速、更强大,数据中心需要构建统一的可预测架构、扩大内存容量,并确保机柜内所有组件具有稳定的延迟表现。支持这些特性的组件将共同助力规模扩展。
相应地,跨机柜的横向扩展要实现动态负载支撑,则需更具弹性的机柜设计——使网络、电力与冷却系统能随负载需求灵活伸缩,从而实现能效优化。这种能力将依赖于热插拔电源、仪表冷却歧管、盲插互联系统和仪器背板。同时,各层级需部署遥测系统以监控IT负载,并采用标准化组件来适应动态配置的变化需求。
升级改造意味着更高能耗与更多热量排放,而散热本身又会进一步增加电力需求。 TE Connectivity正与行业伙伴紧密合作,在安全提升现有服务器机架供电能力的同时,为未来升级铺平道路——尤其是支持云超大规模服务的数据中心正在制定更高容量机柜的新标准与架构。目前行业平均机柜功率密度主要在10-30千瓦,但AI训练集群已突破120-132千瓦的规格极限。到2027年,AI机柜预计将达600千瓦,本年代末还将出现兆瓦级机柜的特定部署。应对如此高密度需采用高压直流架构,以降低电流强度、铜材用量及配电损耗,同时支持极宽范围的机柜功率。
在这些负荷下,仅靠传统的空气加热是不够的。芯片直触式液冷正迅速成为高TDP加速器的标准方案,相变浸没冷却与混合解决方案也在特定场景中应用。持下一代液冷解决方案的光学就绪接口等组件,将为温度控制提供关键支撑。
最具资本效益的策略是尽早“锁定框架”: 在机柜/机群层面界定合理的机械结构、电力、散热、输入输出及遥测共享参数,让芯片与软件能在既定框架内自主迭代,无需重新设计机箱。数据中心越早为此高功率、高带宽未来做好准备,就越能有效支撑AI行业持续发展的需求。理想情况下,数据中心需要可维护、可监控的机架接口,实现在不改造园区的前提下完成扩展与运维——若行业协同努力,这一转型将更高效。
TE Connectivity与超大规模厂商、设备制造商及系统集成商协同研发,构建包含盲插安全电源网络、液冷接口与光学就绪互联的机械-电力-散热-高速I/O一体化稳定框架,助力客户在不更换机架的前提下快速迭代计算单元。
行业的使命清晰明确:通过灵活可扩展、面向下一代创新的基础设施,智能化解AI速率瓶颈。
Sajjad Ahmed
Sajjad Ahmed现任数字数据网络业务研发与工程总监,领导先进工程与解决方案团队,与全球客户紧密合作开发新一代互连架构。拥有逾二十年架构设计与工程生态系统拓展经验,他既具备多学科工程的深厚造诣,又拥有攻克量产难题的实战能力。Sajjad的创新成果持续推动计算产业发展,不断引领塑造全球数据中心未来的关键技术。