转:谷歌与Meta携手复刻CUDA.谷歌正与Meta密切合作推进这一计划,Meta作为PyTorch的创建者和管理者,希望通过降低推理成本并使AI基础设施多元化,以增强与英伟达的谈判筹码。谷歌还在考虑将部分软件开源,以加速客户的采用速度。如果TorchTPU计划成功,将显著降低希望寻求英伟达GPU替代方案的企业的切换成本。
谷歌正在推进一项名为"TorchTPU"的内部计划,旨在提升其人工智能芯片对全球最广泛使用的AI软件框架PyTorch的兼容性,此举直指英伟达长期以来依赖的软件生态护城河。
与过去支持PyTorch的尝试相比,谷歌此次投入了更多组织资源和战略重视。随着越来越多企业希望采用张量处理单元(TPU)芯片,但将软件堆栈视为瓶颈,这一计划已成为谷歌云业务的关键增长引擎。
如果成功,TorchTPU将显著降低企业从英伟达GPU转向替代方案的切换成本。英伟达的主导地位不仅依赖硬件,更依赖其深度嵌入PyTorch的CUDA软件生态系统,而这一生态已成为企业训练和运行大型AI模型的默认方法。
软件兼容成TPU推广最大障碍
谷歌的TorchTPU计划旨在消除阻碍TPU芯片采用的关键障碍。知情人士表示,企业客户一直向谷歌反馈,TPU在AI工作负载上更难采用,因为历史上开发者需要转向谷歌内部青睐的机器学习框架Jax,而非大多数AI开发者已在使用的PyTorch。
这一不匹配源于谷歌自身的技术路径。谷歌内部软件开发团队长期使用名为Jax的代码框架,其TPU芯片则依靠XLA工具来高效运行代码。谷歌自身的AI软件堆栈和性能优化主要围绕Jax构建,这扩大了谷歌使用芯片方式与客户需求之间的差距。
相比之下,英伟达的工程师多年来一直确保使用PyTorch开发的软件能在其芯片上尽可能快速高效地运行。PyTorch是一个开源项目,其发展历史与英伟达CUDA软件的开发紧密相连。CUDA被华尔街部分分析师视为英伟达抵御竞争对手的最强护盾。
Alphabet长期以来将其TPU芯片的绝大部分份额保留给内部使用。这一情况在2022年发生改变,当时谷歌云计算部门成功游说,获得了TPU销售团队的管理权。此举大幅增加了谷歌云的TPU配额。
Google发言人表示,公司看到市场对TPU和GPU基础设施的需求都在大幅增长,而且增长速度还在变快。 重点是提供开发者所需的灵活性和可拓展性,无论他们使用哪种硬件进行开发。
今年,谷歌开始将TPU直接销售到客户的数据中心,而不再限制只能通过自家云服务访问。本月,谷歌资深人士Amin Vahdat被任命为AI基础设施负责人,直接向首席执行官Sundar Pichai汇报。谷歌需要这些基础设施来运行自己的AI产品,包括Gemini聊天机器人和AI驱动的搜索,同时也要供应给Anthropic等谷歌云客户。