谷歌TPU芯片问世十年后迎来了人工智能需求黄金时代

外汇
2小时之前
6

在几乎完全由英伟达公司主导的人工智能芯片行业，谷歌十多年前首次专为人工智能任务开发的一款芯片，最终在母公司之外取得了发展势头，成为训练和运行复杂人工智能模型的一种方式。

近日，Anthropic PBC宣布与Alphabet Inc.旗下的谷歌达成一项协议，为这家人工智能初创公司提供10亿瓦的额外计算能力，价值高达数百亿美元。该协议使Anthropic能够使用多达100万个谷歌的张量处理单元(TPU)——这是谷歌专门设计用于加速机器学习工作负载的芯片——扩大了对这家互联网巨头云服务的使用。

随着人工智能行业的竞争者争相满足激增的算力需求，他们一直在寻找不依赖英伟达加速器芯片的方案来提升自身计算能力——既为了减少对这家芯片巨头昂贵产品的依赖，也为了缓解芯片短缺的影响。尽管Anthropic已经是TPU的客户，但此次大幅增加部署规模是对谷歌技术最有力的认可之一，也标志着长期落后于亚马逊公司和微软公司的谷歌云业务取得了胜利。

对TPU兴趣的激增将吸引更多人工智能初创企业和新客户关注谷歌云业务，帮助该公司充分利用多年来在芯片方面的投资。

Seaport分析师杰伊·戈德堡(Jay Goldberg)表示，谷歌与Anthropic的交易是“对TPU的有力验证”，可能会促使更多企业尝试使用这些芯片。“很多人之前就在考虑这款芯片，现在考虑的人可能更多了。”

作为英伟达主导的芯片市场领域，图形处理器(GPU)最初是为了加速图形渲染而开发的芯片，主要应用于电子游戏和其他视觉特效领域，但后来发现非常适合训练人工智能模型，因为这类芯片能够处理大量数据和计算任务。另一方面，TPU属于一种称为专用集成电路的产品，即为特定用途设计的微芯片。

谷歌于2013年开始研发其首款TPU，两年后正式发布。最初，TPU用于加速该公司的网络搜索引擎并提升效率。2018年谷歌首次开始将TPU部署于其云平台，允许客户注册使用与提升搜索引擎采用技术相同的云计算服务。

这款芯片也被用作谷歌自身应用程序中人工智能和机器学习任务的加速器。由于谷歌及其DeepMind部门开发了Gemini这样的尖端人工智能模型，该公司得以将人工智能团队的经验教训反馈给芯片设计人员，而芯片定制能力也反哺了人工智能团队。

“十多年前，我们构建首个基于TPU的系统时，主要是为了解决一些内部扩展性难题，”谷歌云副总裁、人工智能与计算基础设施总经理马克·洛迈尔(Mark Lohmeyer)在9月的会议发言中说，“后来我们将这种计算能力交到谷歌DeepMind和其他部门的研究人员手中，这在很大程度上直接促成了Transformer架构的诞生。”他所说的是谷歌提出的一种开创性人工智能架构，该架构已成为当今模型的基础。

英伟达的芯片之所以成为人工智能市场的黄金标准，是因为该公司生产GPU的时间比其他任何公司都长得多，而且这些芯片性能强大、更新频繁、提供全套相关软件，通用性也足够强，可以适用于各种各样的任务。然而由于需求激增，这些芯片的价格高昂，而且过去几年长期供应短缺。

与此同时，Seaport公司的戈德堡指出，TPU芯片通常在处理人工智能工作负载方面表现更佳，因为这些芯片是专门为此目的设计的，他罕见地对英伟达股票给予“卖出”评级。他解释说，这意味着该公司可以“剔除芯片中大量不是专为人工智能量身定制的其他部分”。谷歌目前推出了第七代TPU产品，提升了芯片性能，增强了计算能力，降低了使用芯片所需的能耗，从而降低了运行成本。

目前TPU的客户包括由OpenAI联合创始人伊利亚·苏茨克维(Ilya Sutskever)去年创立的初创公司Safe Superintelligence，以及Salesforce Inc.、Midjourney和Anthropic。

目前，想要使用谷歌TPU的企业必须注册租用谷歌云平台的计算能力。不过彭博行业研究分析师指出，这种情况可能很快改变——随着谷歌与Anthropic达成协议，谷歌向其他云平台扩展的可能性更大。

“谷歌与Anthropic可能达成的交易表明，谷歌的张量处理单元有望实现更多商业化，突破谷歌云的局限扩展到其他新兴云平台，”彭博行业研究的曼迪普·辛格(Mandeep Singh)与罗伯特·比格(Robert Biggar)在10月22日的报告中指出，他们指的是那些规模较小、为人工智能提供计算能力的公司。

当然，目前包括谷歌在内，还没有任何企业打算完全取代英伟达的GPU；人工智能的发展速度意味着目前还不可能实现这一点。高德纳分析师高拉夫·古普塔(Gaurav Gupta)指出，尽管谷歌拥有自主芯片，但该公司还是英伟达最大的客户之一，因为谷歌必须为客户提供灵活性。如果客户的算法或模型发生变化，GPU更适合处理更广泛的工作负载。

Key Banc分析师贾斯汀·帕特森(Justin Patterson)对此表示赞同，称张量处理单元不如通用型GPU“用途多样”。但帕特森在写给客户的报告中指出，Anthropic 的这笔交易既表明谷歌云正在扩大市场份额，也表明TPU具有“战略重要性”。

谷歌的最新一代TPU称为“Ironwood”，于今年4月发布，采用液冷技术，专为运行人工智能推理工作负载而设计——也就是使用人工智能模型而非训练人工智能模型。该产品提供两种配置：256芯片集群或更大的9216芯片集群。

在谷歌开发TPU的资深员工如今都在领导芯片初创企业，或者在其他大型人工智能公司主持关键项目。比如，推理芯片初创公司Groq由乔纳森·罗斯(Jonathan Ross)执掌，他曾参与了后来发展为TPU的部分工作。其他曾在谷歌TPU项目工作的人员还包括ChatGPT开发商OpenAI的软件副总裁理查德·何(Richard Ho)，以及根据领英资料显示加入OpenAI从事硬件和软件协同设计的萨芬·胡达(Safeen Huda)。

这些前谷歌员工通过帮助TPU成为人工智能行业的主力军，继续扩大这家互联网公司在人工智能行业的影响力。谷歌内部人士称，多年来的工作成果是他们的产品取得成功的关键。

谷歌的洛迈尔在9月表示，“这种级别的经验确实无可替代。”编辑/陈佳靖