
自人工智能实验室成立初期以来,AWS 一直是 Anthropic 的主要云平台——这种关系非常重要,即使在 Anthropic 后来又将微软纳入云合作伙伴行列,以及亚马逊与 OpenAI 的合作关系不断发展之后,这种关系依然得以维系。
OpenAI与AWS的合作协议使其成为OpenAI全新AI智能体构建工具Frontier的独家供应商。如果智能体真的像硅谷预期的那样发展壮大,Frontier可能会成为OpenAI业务的重要组成部分。我们将拭目以待,看看这项独家协议是否会如之前宣布的那样有效。《金融时报》本周报道称,微软可能认为OpenAI与亚马逊的合作协议违反了其自身与OpenAI的协议,即微软有权访问OpenAI的所有模型和技术。
AWS 对 OpenAI 的吸引力究竟何在?作为合作的一部分,这家云巨头同意向 OpenAI 提供 2 吉瓦的 Trainium 计算能力。考虑到 Anthropic 和亚马逊自家的 Bedrock 服务对 Trainium 芯片的消耗速度已经超过了亚马逊的生产能力,这无疑是一项巨大的投入。
该公司表示,目前已在所有三代产品中部署了 140 万个 Trainium 芯片,而 Anthropic 的 Claude 系统则使用了超过 100 万个已部署的 Trainium2 芯片。
值得注意的是,虽然 Trainium 最初是为更快、更便宜的模型训练而设计的(这在几年前是更重要的),但现在它也经过调整并用于推理。推理——即实际运行 AI 模型以生成响应的过程——目前是业界最大的性能瓶颈。
举例来说:Trainium2 处理了亚马逊 Bedrock 服务的大部分推理流量,该服务支持亚马逊众多企业客户构建 AI 应用程序,并允许应用程序使用多个模型。
“我们的客户群正以我们能够提供足够容量的速度迅速扩张,”金说道。“Bedrock 有朝一日可能会像 EC2 一样庞大,”他补充道,这里指的是 AWS 的巨型计算云服务。
Trainium 对比 Nvidia
除了为英伟达积压且难以获得的 GPU 提供替代方案外,亚马逊表示,其运行在其新型专用 Trn3 UltraServer 上的新芯片,在性能相当的情况下,运行成本比使用传统云服务器低 50%。
除了12 月份发布的 Trainium3之外,AWS 团队还构建了新的 Neuron 交换机,Carroll 表示,这种组合具有变革性意义。
“这给我们带来了巨大的优势,”卡罗尔说道。这些交换机使得Trainium3的每个芯片都能与网状网络中的其他所有芯片通信,从而降低延迟。“这就是为什么Trainium3能够打破各种记录,”他补充道,尤其是在“性价比”方面。
每天涉及数万亿个token,这样的改进意义重大。
事实上,亚马逊的芯片团队在2024年受到了苹果公司的赞扬。这家向来低调的公司难得地公开了其人工智能总监如何使用该团队的另一款芯片——Graviton。Graviton是一款低功耗的基于ARM架构的服务器CPU,也是该团队设计的首款突破性芯片。苹果还赞扬了专为推理而设计的Inferentia芯片,并对当时新推出的Trainium芯片表示认可。
这些芯片代表了亚马逊的经典策略:了解人们想买什么,然后打造一款在价格上具有竞争力的自有替代品。
从历史上看,芯片的难点在于转换成本。为英伟达芯片编写的应用程序必须重新架构才能与其他芯片兼容——这是一个耗时的过程,阻碍了开发人员进行转换。
但AWS芯片团队自豪地告诉我,Trainium现在支持PyTorch,这是一个流行的开源AI模型构建框架。这其中包括Hugging Face上托管的许多模型,Hugging Face是一个庞大的库,开发者可以在这里共享开源模型。
卡罗尔告诉我,这种转换“基本上只需要修改一行代码,然后重新编译,就可以在 Trainium 上运行了”。换句话说,亚马逊正试图尽可能地削弱英伟达的市场主导地位。
AWS 本月还宣布与 Cerebras Systems 建立合作伙伴关系,将该公司的推理芯片集成到运行 Trainium 的服务器上,亚马逊承诺这将带来超强、低延迟的 AI 性能。
但亚马逊的雄心壮志远不止于芯片本身。它还设计了承载这些芯片的服务器。除了网络组件之外,该团队还设计了“Nitro”,这是一种软硬件结合的解决方案,它提供虚拟化技术(允许多个软件实例在同一台服务器上独立运行)、最先进的液冷技术,以及承载这些设备的服务器机架(如下图所示)。
这一切都是为了控制成本和提升性能。

全天候 24/7 进行“启动”工作
亚马逊的定制芯片设计部门成立于2015年1月,当时这家云计算巨头以约3.5亿美元收购了以色列芯片设计公司Annapurna Labs。因此,该团队至今已有十余年为AWS设计芯片的经验。该部门保留了Annapurna的品牌和名称——其标志在办公室随处可见。
这家芯片实验室位于奥斯汀高档的“The Domain”区一栋闪亮的镀铬玻璃窗建筑内。“The Domain”是一个步行可达的区域,遍布商店和餐馆,有时也被称为奥斯汀的硅谷。。
办公室有着典型的科技公司氛围:格子间的办公桌、公共休息区和会议室。但真正的实验室却隐藏在大楼高层深处,可以饱览城市全景。
这个实验室摆满了架子,大约相当于两个大型会议室的大小,由于设备风扇的运转,这里噪音很大,像个工业场所。它看起来像是高中工艺课教室和好莱坞高端实验室布景的混合体,只不过工程师们穿着牛仔裤,而不是白色实验服。

请注意,这里并非芯片的生产地,因此无需穿戴防护服。Trainium3 是一款采用 3 纳米工艺制造的尖端芯片,由台积电 (TSMC) 生产,台积电堪称 3 纳米制程工艺的领军企业,其他芯片则由 Marvell 公司生产。
但正是在这个房间里,神奇的“抚养”过程发生了。
“芯片启动就是你第一次拿到芯片的时候,就像参加一个大型通宵派对。你得待在这里,就像被锁在里面一样,”King解释道。经过18个月的研发,芯片首次被激活,以验证其是否按设计运行。
剧透警告:它永远不会一帆风顺。
Trainium3 的原型芯片最初和之前的版本一样采用风冷散热。而现在的芯片则采用液冷散热,这不仅带来了节能优势,也是一项相当了不起的工程成就。
在启动过程中,芯片与空气冷却散热器的连接尺寸有误,因此芯片无法激活。
金说,团队并未慌乱,“立刻拿来一台砂轮机,开始打磨金属”。由于不想让噪音破坏披萨派对的气氛,他们偷偷溜到会议室里继续打磨。
金说,熬夜解决问题“就是硅谷创业的精髓所在”。
实验室甚至配备了焊接工作站,硬件实验室工程师兼首席焊工艾萨克·格瓦拉(Isaac Guevara)在那里演示了如何通过显微镜焊接微型集成电路元件。这项工作难度极高,以至于高级领导卡罗尔(Carroll)公开承认自己也做不到,引得格瓦拉和在场的其他工程师哄堂大笑。

该实验室还配备了用于测试和分析芯片问题的定制工具和商用工具。以下是信号工程师 Arvind Srinivasan 演示实验室如何测试芯片上的每个微小组件:

Sled(托盘)是实验室的明星
但实验室的亮点是一整排展示团队设计的每一代“Sled”。

托盘是用来放置 Trainium AI 芯片、Graviton CPU 芯片以及配套电路板和组件的托盘。将它们与同样由该团队定制设计的网络组件一起堆叠在机架上,就构成了 Anthropic Claude 成功的核心系统。
这是去年 12 月 AWS re:invent 大会上展示的托盘:

经 Anthropic 和 OpenAI 验证
我原以为导游会在参观过程中大肆宣传OpenAI的交易,但他们并没有。
这种沉默或许与之前提到的可能笼罩这笔交易的法律阴影有关。但我的感觉是,这些一线工程师(他们目前正在设计下一代产品 Trainium4)还没有太多机会与 OpenAI 合作。到目前为止,他们的日常工作主要集中在满足 Anthropologie 和亚马逊的需求上。
目前,Trainium2 芯片的最大部分部署在 Project Rainier 中——这是世界上最大的 AI 计算集群之一——该项目于 2025 年底上线,拥有 50 万个芯片。它由 Anthropic 公司使用。
但主办公室的墙上显示器上却显示着一段关于OpenAI将如何使用Trainium的引言。那种自豪感虽然含蓄,却也显而易见。
除了这个实验室之外,该团队还拥有自己的私有数据中心,用于质量控制和测试。该数据中心距离实验室不远,由于不运行客户工作负载,因此托管在托管机房而非 AWS 数据中心。
安保措施非常严格:进入大楼和亚马逊内部区域都有严格的规定。
数据中心的冷却系统噪音极大,必须佩戴耳塞,空气中弥漫着刺鼻的金属燃烧气味。对于普通人来说,这里并非一个宜人的地方。

在这个数据中心里,一排排服务器整齐排列,每个服务器都配备了集成了亚马逊所有最新定制芯片的托盘:Graviton CPU、液冷 Trainium3 和 Amazon Nitro,它们都在高效运转。工程师们表示,冷却液在一个封闭系统中循环使用,这意味着它可以重复利用,这也有助于减少对环境的影响。
这就是一台最新的 Trn3 UltraServer 的外观:顶部和底部有多个托盘,中间是 Neuron 交换机。图中可以看到硬件开发工程师 David Martinez-Darrow 正在维护一个托盘:

虽然这支团队一直备受关注,但最近受到的审视更是急剧加剧。
亚马逊首席执行官安迪·杰西密切关注着这个实验室,并像一位骄傲的父亲一样公开吹嘘其产品。去年12月,他表示Trainium对AWS来说已经是一项价值数十亿美元的业务,并称其为他最兴奋的AWS技术之一。在宣布与OpenAI达成协议时, 他也对这款芯片赞不绝口。
团队也感受到了压力。在每次试生产活动前后三到四周,工程师们将全天候工作,以解决所有问题,确保芯片能够大规模生产并投入数据中心使用。
卡罗尔说:“尽快证明它确实有效至关重要。到目前为止,我们做得非常出色。”
广瑞网提示:文章来自网络,不代表本站观点。