芯片战争还在芯片老厂之间。
撰文:木沐
人工智能的行业竞争,不仅是 OpenAI 与谷歌等各大互联网巨头的大模型之争,支撑运算的芯片赛道也暗流涌动,大模型「制造机」们也加入了赛道。
OpenAI 计划从 CEO Sam Altman 投资的一家初创公司 Rain AI 订购更高效的 NPU 芯片;微软也推出两款自研芯片 Azure Maia 100 和 Azure Cobalt 100;谷歌刚推出的新模型 Gemini 1.0 采用的就是自己设计的芯片 TPUs v4 和 v5e。
在这之前,英伟达构筑的 AI 芯片帝国是这些大模型公司的强大输出方,如今,大模型公司试图要自给自足一部分。而正式向英伟达发起挑战,还是芯片赛道上的老玩家。
美国超威半导体公司(AMD)已推出新一代 AI 芯片 MI300X, 还从从英伟达手中分走了 Meta、微软和 OpenAI 三大客户。
AI 芯片卷起来了,但想要挑战坐在「王位」英伟达,也绝非易事。
大模型公司自给芯片
今年以来,各种 AI 大模型和应用百家争鸣,英伟达 A100、A800、H100、H800 等能支持 AI 大模型训练的芯片被疯狂抢购。「消费者」不仅是科技公司,还有各国政府和风险投资公司。
「卖水」的英伟达一时风头无两,他们家的 AI 芯片供不应求,AI 市场再现 GPU 短缺。
微软在 2023 财年报告中就多次指出,对能否为其云运营获取 GPU 感到担忧。OpenAI 的 CEO Sam Altman 也不止一次公开「抱怨」芯片短缺及成本巨大,今年 5 月,他曾公开表示,OpenAI 正在经历严重的算力短缺。这也正在影响用户体验,ChatGPT 时常卡顿,反应延迟。
据报道,OpenAI 运行 ChatGPT 的成本每天在 70 万美元。路透社指出,每个 ChatGPT 查询的成本约为 4 美分,如果此类查询增长到 Google 搜索的 1/10,则需要预先投入价值约 480 亿美元的 GPU,每年需要花费 160 亿美元的芯片才能维持运行。
算力短缺,成本高昂,戴尔亚太和日本总裁 Peter Marrs 就曾预测,买家不会容忍英伟达 GPU 的交货时间过长,这将给大量竞争对手制造机会。
为了摆脱对英伟达的芯片依赖,OpenAI 正在考虑研发自己的 AI 芯片,以应对全球 GPU 的短缺,缩减 GPT 的训练成本。
前几天,OpenAI 一份订购意向书曝光,Altman 任职 CEO 期间,该公司承诺从一家初创公司 Rain AI 订购芯片,金额高达 5100 万美元,而 Altman 投资了这家公司。
值得一提的,这款芯片是基于神经拟态(Neuromorphic)技术的「类脑」 AI 芯片 NPU,据说「模仿了人脑的结构和功能」,支持并行和分布式地处理信息,非常适合 AI 应用中的「计算密集型任务」,能够实现低耗、高效地处理信息。但目前,该芯片仍在研发阶段。
不仅是 OpenAI,微软和 Google 等大型科技公司也在一直打造更高效的芯片。
11 月 16 日,微软在年度 IT 专业人士和开发者大会 Ignite 上推出两款自研芯片——云端 AI 芯片微软 Azure Maia 100、服务器 CPU 微软 Azure Cobalt 100。
Maia 100 旨在为 AI 工作负载运行基于云的训练和推理,而 Cobalt 100 则用于通用工作负载。微软的数据中心预计,将在 2024 年初同时采用 Arm CPU 和专用 AI 加速器。微软表示,除了在 Bing 和 Office AI 产品上测试该芯片外,OpenAI 也正在测试该芯片。
微软研发 Maia 100 自用及供给合作伙伴 OpenAI
谷歌也开始行动,其刚刚发布的、号称「吊打」GPT-4 的大模型 Gemini1.0,用的就是谷歌自研的 TPUs v4 和 v5e 芯片。
谷歌称,在 TPUs 上,Gemini 的运行速度明显快于早期规模更小、性能更弱的模型。此外,歌还发布了 TPU 系统 Cloud TPU v5p,旨在为训练前沿 AI 模型提供支持,从而加速 Gemini 的开发。
包括苹果、华为等硬件厂商,越来越多的科技巨头都开始自主设计和开发自己的芯片,以满足自身的业务需求和差异化竞争。
英伟达的防御与扩张
大模型公司卷进芯片赛道,真能彻底摆脱对英伟达的依赖吗?
尽管市面上英伟达 H100 GPU 已涨到了原价的两倍,依旧供不应求。也即便已经上线自研芯片的谷歌,也依然在大量采购英伟达的芯片。
英伟达有自己的护城河。
据英国《金融时报》 报道,今年以来,英伟达已经投资了二十多家公司,包括从价值数十亿美元的大型新人工智能平台到将人工智能应用于医疗保健或能源等行业的小型初创企业。
虽然英伟达表示,公司在投资时并没有特殊条款,也不要求被投企业必须使用英伟达的芯片。但某种程度上,这意味着更密切的关系。
英伟达风险投资部门 NVentures 的负责人 Mohamed Siddeek 表示:「对于英伟达来说,进行初创企业投资的首要标准是相关性。」 他强调,「使用我们的技术、依赖我们的技术、在我们的技术上建立业务的公司,我想不出我们投资的公司有哪家没有使用英伟达的产品。」
根据跟踪风险投资机构 Dealroom 的估计,英伟达在 2023 年参与了 35 笔交易,几乎是去年的六倍。Dealroom 指出,这是英伟达人工智能领域交易最活跃的一年,超过了 Andreessen Horowitz 和红杉等硅谷大型风险投资公司。
此外,英伟达 CUDA 计算平台以及软硬件生态,也为英伟达护城河构筑了更加坚固的河堤。
CUDA 是一种英伟达推出的并行计算架构,运行相同任务的情况下,支持 CUDA 系统的英伟达 GPU 比 CPU 的速度要快 10 到 100 倍。正是得益于 CUDA 系统,GPU 才得以打败 CPU,成为今天运行大数据计算的基础。
大模型公司自研芯片,摆在眼前的也困难并不少,根源是原材料的供不应求。
The Enderle Group 首席分析师 Rob Enderle 就表示,「制造芯片并非易事,代工厂和晶圆厂已经饱和,这使得 OpenAI 的这项工作很可能会失败。」他补充说,「他们最好与 AMD、高通、英伟达或英特尔合作,因为后者已经拥有自己的铸造厂。」
还有成本。
Futurum Group 的高级分析师 Todd R. Weiss 表示,创建自己的芯片摆脱依赖「乍一看,是一个很酷的主意」,但设计自己的芯片、建立自己的芯片制造设施,永无止境地开发更新更好的芯片路线图所需的成本,还要担心自己的供应链问题,「这并不比从他人手中购买芯片更简单。」
芯片的战场,还在芯片制造商之间。
12 月 6 日,英伟达最大的竞争对手美国超威半导体公司(AMD)举行「Advancing AI」发布会,并拉来了微软、Meta 等科技公司高管站台,发布会上,AMD 带来了新一代 AI 芯片 MI300X。
与英伟达的 H100 HGX 相比, MI300 X 加速器在运行大语言模型推理时的吞吐量和时延表现都要明显高出一截,且价格也更加低廉。Meta、微软和 OpenAI 公司随后在 AMD 投资者活动上表态,未来他们将会使用 AMD 最新的 AI 芯片。
真正降低成本的办法,还得看芯片制造商的「互卷」。AMD、英伟达等芯片大厂进入产能竞争,价格才能打下来。而大模型巨头自研芯片,无非是为「军备竞赛」多一条奔跑的腿。
未经允许不得转载:澳鸟-全球资讯平台 » 大模型公司「卷」 芯片,英伟达危?