联系我们
400-8768208时间: 2024-12-26 03:20:34 | 作者: 台球桌
在过去十年中,两大科技繁荣的引擎——密码货币和人工智能,推动了GPU技术的飞速发展。
2023年,随着生成式AI的兴起,对算力的需求飞速增加。英伟达GPU作为算力供应的关键,其市场地位变得至关重要。正如《沙丘》中香料作为宇宙最重要的资源,英伟达的GPU在当今时代也扮演着相似的角色,谁掌握了英伟达的GPU,谁就掌握了AI时代的命脉。
埃隆·马斯克(Elon Musk)曾戏称H100显卡的稀缺程度“比毒品都难买”。在这样的背景下,CoreWeave作为英伟达的“亲儿子”,成为其H100显卡的首批供应商,成为全世界首家提供HGX H100租赁服务的云计算企业,甚至比微软Azure还要早一个月。
CoreWeave最初是一家成立于2017年的以太坊挖矿公司,2019年转型为云计算业务,成为“算力经销商”。尽管2022年的收入仅为2500万美元,远不及微软Azure,在硅谷也并未引起太大关注。然而,2023年生成式AI兴起,在获得英伟达的投资和获得H100的优先购买权后,挟“H100”以令诸侯,CoreWeave迅速崛起,签下了Inflection AI和Stability AI等大客户,年收入激增至4.6亿美元,同比增长接近20倍,并已签订了近20亿美元的合同。
CoreWeave在过去一年中筹集了约100亿美元的资金,包括来自投资机构(如 Coatue、Magnetar)超过10亿美元的股权,以及从Blackstone、Carlyle和BlackRock筹集的75亿美元的债务,估值达到190亿美元。预计24年将实现约20亿美元的营收。
究其原因,英伟达的前四大客户(收入占比超过40%)——微软、谷歌、亚马逊、Meta,近年来投入巨资研发自家AI芯片,以减少对英伟达的依赖。这使得这些下游大客户云巨头与英伟达存在产品上的潜在竞争关系。与此相反,CoreWeave由于不设计自己的芯片,对英伟达不构成威胁。因此英伟达主动扶持CoreWeave等较小的的GPU云服务厂商,让微软等巨头不得不再交一层GPU税,卷入这场采购H100的浪潮中。
背靠英伟达、坐拥Inflection等大客户,CoreWeave的未来看起来一切向好。不过,一旦微软、谷歌等传统云厂商在AI芯片上取得突破,CoreWeave可能会失去目前在英伟达帮助下所拥有的竞争优势,这些传统云厂商显然能更快地使用自研AI芯片,考虑到英伟达H100超过90%的毛利率,成本显然也比之前低的多。
CoreWeave的案例为咱们提供了深入了解AI行业的视角,展示了一家勇于探索商业模式的公司如何在生成式AI的浪潮中实现从濒临破产到快速崛起的转变。历史不会重演细节,过程却会重复相似,这种“卖铲子”的商业模式,在未来仍可以让我们深入研究。
AI模型的运算需求推动了对高性能GPU的依赖,因为GPU可提供必要的并行解决能力来执行复杂的计算任务。因此在进入主题之前,我们先来了解下AI到底有多需要GPU,以及到底有多烧钱。
生成式人工智能模型,尤其是基于Transformer架构的大型语言模型(LLMs)如GPT-3、GPT-J或BERT,对计算资源有着非常大的需求。这些模型的推理和训练成本不仅与模型的规模和类型紧密相关,而且与模型的参数数量和处理的输入和输出标记(Tokens)的数量成正比:
确定模型参数数量 (p):模型参数,也就是神经网络中的权重,是模型中的可学习元素的数量。
确定输入和输出序列的长度 (n):这是输入和输出数据集中每个序列的Token数量,Token本质上是几个字符的短序列。它们对应于单词或单词的一部分。对于 GPT-3,Tokens的平均长度为4个英文字符,约为3/4个英文单词
使用经验规则:对于transformer模型,每进行一次前向传播(即推理),如果输入和输出序列各为n个Token,并且模型有p个参数,则大约需要 2×n×p 次浮点运算 (FLOPs,floating-point operations per second)。这是因每个参数在前向传播中会被使用两次(一次乘法和一次加法)
计算训练的额外计算量:训练模型不仅需要前向传播,还需要反向传播来计算梯度并更新权重。对于每个Token,反向传播大约需要额外的4次浮点运算(因为每个参数需要计算梯度,涉及到乘法和加法)。因此,训练的计算量大约是 6×p 次浮点运算乘以Token总数
估算总训练成本:将训练的计算量乘以训练数据中的总Token数,能够获得整个训练过程所需的总计算量。
例如,如果一个模型有 10^9(即10亿)个参数,训练数据集有 10^7(即1000万)个Token,那么训练这个模型所需的计算量大约是 6×10^9×10^7=6×10^16 次浮点运算。
拿一个实际的案例来说,GPT-4有大约1.8万亿个参数,训练数据集的Token数为13万亿个,因此训练所需的浮点运算数 ≈ 6×1.8×10^12×13×10^12 = 1.4 × 10^26 次。
如果将这个计算复杂度转化为时间的线 GPU为例,目前单卡的深度学习运算性能大约是1872 TeraFLOPS(即每秒可以执行1872万亿次浮点运算,约为A100的6倍)。那么用一张H100来进行训练GPT-4的线) = 7.4 × 10^10秒,约为2371年。如果拿1万张H100来训练的线天时间。
在实践中,对于训练,我们不会在 GPU 中获得接近 100% 的效率,一般为50%-70%之间。并且,这只是单次运行的成本,犯错在所难免,有时候在大多数情况下要进行多次训练。因此保守来看,至少需要1万张H100训练150天左右,才有机会训练出GPT 4。
拿目前H100的市场价来说,3万美元一张的线亿美元,如果算上万卡集群的周边投入(如厂房、机柜、网络、液冷等成本),至少需要4亿美金的固定成本投入,不算可变成本的支出(如电费)。
然而现实情况是,对于许多初创公司来说,尤其是要自己进行训练一个新的基础模型或构建垂直集成AI应用程序的初创公司(甚至是很多云服务大厂),在初期没这么多资金投入在GPU等数据中心的采购上。对他们来说,对外采购GPU云(简单来说,租GPU)具有较低的前期成本、扩展和缩减的能力、区域可用性以及减少构建自己的数据中心的干扰都具有吸引力。如果是租用GPU的线亿美元的GPU租金用于训练GPT-4。
当然这只是算了训练模型的成本。然而,当模型训练完成后,每次使用模型进行推理时也需要调用GPU资源。虽然目前这部分成本相比来说较低,但随着AI技术的普及和渗透率的提升,推理成本的上涨的速度可能会迅速上升。
为了提升产品的性能和质量,增加计算量是关键。许多公司已将大部分融资投入到计算资源的采购中,有时这一比例甚至超过了80%。
在这样的背景下,这也引出了我们今天的主人公,Coreweave作为一家提供GPU云服务的公司,其重要性不言而喻。Coreweave专门为那些需要大量计算资源的AI公司提供支持,帮助它们减少相关成本,加速研发进程。
CoreWeave的故事始于2016年,当时Michael Intrator(CEO)、Brian Venturo(CTO)和Brannin McBee(CSO)三位对冲基金Hudson Ridge Asset Management的天然气期货交易员在纽约曼哈顿下城的一个办公桌台球桌上,成功开采了第一个以太坊区块。他们通过购买GPU进行挖矿,并迅速意识到这一新兴市场的潜力,几天之内就能回本,回报远高于对冲基金。随着密码货币价格的快速上涨,他们开始大规模购买GPU,并在新泽西州的一个车库里建立了他们的第一个数据中心。
2017年,他们正式关闭了之前的对冲基金,将全部精力投入到了密码货币挖矿,并在同年9月成立了Atlantic Crypto,专注于租用GPU进行加密货币挖矿。正好在这样一个时间段进入密码货币市场是一个很好的时机,因为从2017年11月到2018年1月,以太坊的价格持续上涨了400%以上。
2018年,尽管许多挖矿公司在密码货币市场的波动中倒闭,CoreWeave却趁机抄底GPU,将其库存从几百张增加到5万张,并扩展了数据中心至7个,占据了以太坊网络总量的1%以上,成为了北美最大的以太坊“矿场”。
然而,随着密码货币市场的急转直下,CoreWeave开始面临财务危机。为了应对这一挑战,2019年,公司开始转型,提供GPU云服务器给其他加密矿工,并发现了企业对GPU加速服务的需求,从租赁芯片挖矿扩展到提供GPU云服务给别的企业,如CG渲染等。大量依赖GPU加速的企业找到他们,想让他们提供算力支持,因为传统云服务提供商提供有限的算力选项,同时价格非常贵,让大规模的业务扩展变得很困难。
随后几年,云业务每年增长好几倍。2021年10月,也就是以太坊达到历史最高价4868美元的两周之前,公司更名为CoreWeave,将密码货币挖矿业务转变为云计算,精准从币圈逃顶,并获得了Magnetar Capital的5000万美元投资。由于密码货币挖矿的旧式零售级GPU设备,并不适合用于运行企业级工作负载,CoreWeave开始只专注于购买英伟达提供的企业级GPU芯片组,并将业务围绕这些芯片进行调整。
2022年,以太坊合并完成,从 PoW (工作量证明)完全过渡到 PoS(权益证明),大规模显卡挖矿时代结束,CoreWeave彻底转型为一家云服务提供商。同年,CoreWeave的收入达到3000万美金,尽管这仅为微软Azure收入的千分之一,但公司在硅谷的影响力正在逐渐增强。
2023年4月,CoreWeave获得了英伟达的B轮融资。但比起金钱,英伟达还给了它一项更稀有的资源——H100。CoreWeave也因此成为全世界第一家上线租赁服务的云计算企业,,比微软Azure还要早一个月。
随着AI技术的加快速度进行发展,CoreWeave的GPU资源变得极为宝贵,吸引了包括OpenAI、微软等AI巨头成为其客户。随着新业务的稳步发展,CoreWeave从一个小办公室扩张成遍布全国的数据中心,以满足一直增长的AI市场需求。
作为一家专业的云服务提供商,CoreWeave专注于提供高性能计算资源的租赁服务,主要面向需要大量算力的客户群体。与一般云服务商提供的存储、网络等多种服务不同,CoreWeave专注于GPU加速计算,当然其也有提供不一样服务的扩张计划(目前已经增加了针对数据存储、网络、CPU计算的专门解决方案)。
CoreWeave 依据市场需求、具体 GPU 型号(包括最新的Nvidia H100 GPU,以及成本更低的旧版本GPU,性能更好的新型号价格更高)以及经营成本来设定租赁价格,以确保利润率。CoreWeave还为大型客户构建定制的私有基础设施,满足他们对价格和响应能力的高要求。
尽管大型AI公司或跨国企业(比如微软、Google等)不会完全依赖CoreWeave的基础设施,但CoreWeave明确其市场定位,即为那些对价格和响应速度极为敏感的客户提供服务。根据Andreessen Horowitz的分析,CoreWeave的定价远低于AWS、微软、谷歌和甲骨文等传统云服务商的GPU价格,这使得CoreWeave在对价格敏感的人工智能客户中有着非常明显的竞争优势。其口号也是“比传统云提供商快 35 倍,成本低 80%,延迟低 50%”。
实际上我们也能够正常的看到,在上图的价格中,大型云服务厂商(AWS、Azure、Google等)在品牌声誉、可靠性以及管理能力上有一定优势,但是CoreWeave的价格仅仅为AWS的一半。
CoreWeave通过其完全管理的裸金属 Serverless Kubernetes基础设施(Kubernetes是一个开源的自动化工具,用于管理和部署云中的工作负载),为客户提供高性能的计算服务。
Serverless:CoreWeave允许客户运行自己的代码、管理数据和集成应用程序,而无需直接管理底层的基础设施。这种架构使得客户能够专注于他们的业务逻辑,而将基础设施的维护和优化工作交给CoreWeave。
裸金属与虚拟化:CoreWeave使用Kubevirt技术,结合了虚拟机的易用性和裸金属的性能。通过裸金属直接部署工作负载,客户能在硬件级别定制服务器,并快速启动新的虚拟服务器,无需在服务器上构建额外的虚拟化层。
云原生网络系统:对需要高性能计算的GPU应用程序,CoreWeave提供HPC Interconnect,包括与Nvidia合作提供的Infiniband,实现最快和最低延迟的数据传输,吞吐量高达每秒400GB,这也是Inflection AI等客户目前使用的方案。此外,CoreWeave还提供基于以太网的HPC解决方案,满足多种客户的需求,比如对于吞吐量要求稍低的情况,能够正常的使用基于以太网的HPC
存储解决方案:CoreWeave还提供灵活的存储选项,包括块存储、文件系统和对象存储。其分布式存储系统设计用于容错,确保在部分基础设施出现故障时,数据仍旧能从其他位置访问。客户能独立于计算资源来管理存储卷,并且存储系统支持从1 GB到PB级别的扩展,满足多种规模业务的需求。
CoreWeave Cloud UI 是用户与 CoreWeave 云服务交互的中心。在这个 Web 管理平台上,用户都能够执行以下四个主要功能:
API Token 和对象文件的创建:用户都能够生成 API Token 和对象文件,以自定义他们盼望通过 Kubernetes 控制服务器的方式。这为用户更好的提供了灵活性和控制力,使他们可以根据自己的需求自动化和定制服务。
虚拟服务器的部署:用户都能够在 Cloud UI 中部署虚拟服务器,这些服务器提供所需的计算能力。例如,用户都能够启动 Nvidia A100 GPU 服务器来处理复杂的人工智能模型的微调任务,确保他们拥有处理高负载工作所需的资源。
应用程序的部署:CoreWeave 与 Argo-Workflows 合作,提供了针对典型用例设计的内置应用程序。用户都能够轻松部署这些应用程序,从而简化了开发和运行工作流程的过程。
存储界面管理:Cloud UI 提供了一个直观的存储界面,用户都能够在这个界面中增加、减少和查看虚拟服务器、应用程序和文件的存储。这种管理方式确保了用户对数据存储有清晰的视图和完全的控制。
通过 CoreWeave Cloud UI,用户都能够高效地管理他们的云资源,从计算资源的分配到存储解决方案的调整,所有操作都可以在一个统一的平台上完成。
2020年,CoreWeave加入英伟达的云服务提供商计划,开始围绕英伟达的芯片构建了专门的云基础设施。其在2022年9月取得了重要的里程碑,成为英伟达认可的精英级别云服务提供商(CSP),专注于提供AI、计算和可视化服务。此外,CoreWeave在云中部署了英伟达的InfiniBand和BlueField DPU技术,前者为科学计算、AI和云数据中心提供了端到端的高性能网络解决方案,而后者则明显提升了数据中心等算力基础设施的效率。
随着2023年ChatGPT的火爆和AI浪潮的兴起,CoreWeave迎来了其发展的黄金时期。年初,CoreWeave便找到Inflection AI,为其提供了数千张H100 GPU,这一合作引起了英伟达的注意,随后英伟达向CoreWeave投资数亿美元,并提高了其H100 GPU的供货优先级,以支持Inflection的需求(2.2万张H100显卡)。
尽管台积电CoWoS产能的限制导致英伟达H100十分紧缺,但英伟达还是优先并打折分配给CoreWeave大量新卡,同时限制了对亚马逊、谷歌、微软的供应。各个大厂为了采购H100,比如阿里云专门成立了供应链团队,其中有几十人负责芯片采购,直接听命于CTO。而微软也曾在财报中表示,如果没有办法获得足够多的 AI 芯片,云计算业务可能会中断。
而CoreWeave的McBee表示,CoreWeave与英伟达的合作非常紧密,CoreWeave会制定大型项目的时间表并与英伟达分享其计划。作为回应,英伟达承诺在工程设计、市场营销、基础设施和分配等方面提供全面支持。这使得CoreWeave能够专注于执行和交付。
英伟达不仅优先且打折卖给CoreWeave显卡,还为CoreWeave提供全方面技术上的支持,这能够说是英伟达的亲儿子了。
得到了英伟达的支持后,CoreWeave一直在迅速扩大其数据中心业务,23年从3个数据中心发展到14个中心,并计划到2024 年底达到28个。也正是因为此,微软无法优先买到英伟达的H100后,为了确认和保证ChatGPT未来拥有足够的算力,微软与CoreWeave签署了价值数十亿美元的AI算力协议,这一合作进一步巩固了CoreWeave在AI云基础设施领域的地位。不仅客户来买CoreWeave的GPU云服务,连竞争对手都不得已低头进行采购,有这样的市场地位,又何愁上涨的速度不够呢。
2022年12月,Magnetar再次向CoreWeave投资1亿美元,以支持其云基础设施的扩展。有必要注意一下的是,这笔投资发生在OpenAI宣布ChatGPT之后的6天,显示出市场对AI有关技术的高度兴趣。
2023年11月,CoreWeave的股票非常热门,早期股东和员工成功套现,将价值6.42亿美元的股份出售给投资方,领投为Fidelity,其他参与者包括安大略投资管理公司(IMCO)、摩根大通、Zoom Ventures等,估值为70亿美元。
CoreWeave的GPU成本不仅包括购买价格,还涵盖了在其生命周期内的经营成本。而收入则来源于客户在一段时间内租用GPU所支付的累计金额。公司致力于最大化每个GPU的利用率,以确保产生的收入远超于成本。
从成本角度来说,CoreWeave在构建其云服务基础设施时面临显著的前期成本,主要涉及GPU的采购和数据中心的建立。这些GPU硬件的常规使用的寿命通常能持续数年,为CoreWeave提供了长期出租这些资源的机会。然而,经营成本也不容忽视,包括为维持GPU运行所需的电力消耗、防止过热所需的冷却系统,以及保证服务连续性和客户满意程度所需的人员配置。为了更好的提高利润,CoreWeave不断寻求提高数据中心运营效率的方法,例如通过减少电力消耗、与能源供应商协商更优惠的电价,或投资于更先进的冷却技术。这些努力有助于降低经营成本,从而在竞争非常激烈的市场中提高利润率。
从收入角度来看,尽管高端GPU的利润率通常较低,例如高端H100 PCIe卡的成本约为30,000美元,以平均每小时4.25美元的价格出租,假设80%的利用率,每年可产生约29,473美元的收入,这几乎当年就能达到收支平衡。
然而,更便宜的GPU,如A40(CoreWeave可以在生成式AI热潮之前批量购买),在同样的利用率下产生更大的利润。一台A40 GPU,三年前标价为4,500美元,现在以每小时1.278美元的价格出租,每年可产生8,877美元的收入,相对于其成本而言,绝对可以说是暴利,半年即可回本。
从毛利率角度来看,在向投资者展示时,CoreWeave将自己与行业巨头AWS作比较,展现出其财务情况的乐观前景。据23年6月的投资文件显示,CoreWeave预计将实现高达85%的毛利率,相比之下,AWS的毛利率仅为50%。
CoreWeave在2022年的财务表现和随后在23、24年的增长预测描绘了一个迅猛发展的公司形象。
该公司在2022年报告了2500万美元的收入,然而,它向投资者展示了一个雄心勃勃的增长计划,预计在2023年,收入将激增至4.65亿美元,实现了一年接近20倍的惊人增长。
展望未来,CoreWeave预计到2024年收入将达到20亿美元,并预计到2026年签署的云合同总额将超过70亿美元,这比2023年初的50亿美元有了显著增长。在这70亿美元的合同中,很大一部分来自与微软的多年协议,微软同意在多年内向CoreWeave支付数十亿美元,CoreWeave将为Azure云客户提供GPU计算资源,以满足微软无法完全满足的市场需求。
在基础设施方面,CoreWeave也展示了其扩展的雄心。从2023年初的三个数据中心开始,CoreWeave迅速扩大到年底的14到18个数据中心,每个设施都配备了约20,000个GPU,这显示了公司对提供高性能计算服务承诺的坚定。
在GPU云服务市场中,竞争异常激烈,众多公司争夺市场占有率,其中不乏行业巨头和新兴企业。亚马逊云(AWS)、谷歌云(Google Cloud)和微软Azure是市场上的主要云提供商,它们以庞大的收入规模和广泛的服务范围占据着市场的主导地位。与此同时,Lambda Labs和Together AI等新兴企业也在特定细分市场中崭露头角。
尽管如此,CoreWeave已经能够在GPU访问方面超越这些最大的云提供商,得益于英伟达的优惠待遇。虽然目前的存量显卡中,Meta、微软等远超于CoreWeave,但是随着英伟达选择将GPU分配给CoreWeave,而非AWS、谷歌和微软,这使得CoreWeave成为英伟达值得支持的客户。此外,CoreWeave是英伟达的主要云提供商客户中唯一一家没有开发自己的AI芯片的公司,这一地位使其在与英伟达的合作中占据了有利位置。
在这一市场中,还有别的有必要注意一下的勇于探索商业模式的公司,如Lambda Labs和Together AI。
Lambda Labs:成立于2012年,同样于2019年左右转型为AI计算提供商,目前估值15亿美元,规模上比CoreWeave小,23年收入约为2.5亿美元,预期24年达到6亿美元。作为同样获得了英伟达的H100优先分配权,Lambda Labs与CoreWeave不同的是,Lambda主要专注于On-demand的AI训练市场。大量科研机构、SMB(中小企业业务)以及开源社区需要几百或一千张左右的A100或H100来进行一些大模型的尝试,相对于比头部公司,这类型客户的特点是订单维持的时间较短,中短期内需求量大,订单不确定性较高。
Together AI:主要强调 AI 的可访问性和易用性,用户友好的界面以及将AI功能集成到日常业务流程中。这与 CoreWeave 专门的、以性能为导向的产品呈现出不同的价值主张。23年收入约1000万元,体量较小。
CoreWeave与英伟达之间的紧密合作伙伴关系在GPU云服务市场中占据了主体地位。作为英伟达的重要合作伙伴,CoreWeave预计在2023年占据了英伟达总收入的约4-5%,虽然是英伟达的前十大客户,但这远远低于微软(占英伟达收入约20%)、谷歌、亚马逊、Meta等。
英伟达对CoreWeave的特殊待遇,包括优先分配其尖端GPU,如H100,使CoreWeave能够在市场中保持竞争优势。这种优势在某些特定的程度上帮助英伟达在与大型科技公司的竞争中占据一席之地,尽管这一些企业,如亚马逊、微软、谷歌和Meta,都在尝试开发自己的AI芯片。其中最典型的便是谷歌,2014年开发,谷歌就在自研性能更强、功耗更低的 TPU,以提升了单个数据中心的算力供应。微软也于23年发布了专门用于云端训练和推理的AI芯片(ASIC)Maia 100。而Meta在23年又重启了自研芯片计划,针对 PyTorch 框架定制了全新的 MTIA 芯片。
这些大型科技公司云计算团队开始劝说客户改用其自研芯片,而不是英伟达的 GPU。尽管目前英伟达仍然是市场的绝对赢家,但未来市场平衡何时被打破仍是未知数。一旦这一些企业在AI芯片研发上取得突破,CoreWeave 可能会失去目前在 Nvidia 帮助下所拥有的竞争优势,比如失去微软的大订单。如果英伟达选择改变合作条款,它对英伟达合作伙伴关系的依赖也会带来风险。
CoreWeave通过抵押英伟达GPU进行的债务融资确实为其提供了快速扩张的资金支持。这种策略使得CoreWeave能够筹集到近100亿美元的资金,这些资金很可能将被用于购买更多的英伟达GPU,从而扩大其云服务的规模和能力。。如果GPU价值保持稳定,CoreWeave可能会持续利用这种融资方式来扩大其GPU储备。
这种模式确实与银行的业务模式有相类似的地方,因为它们都涉及到重资产的杠杆作用。通过这一种方式,CoreWeave可提升其资本的收益率,类似于银行通过贷款赚取利息收入。然而,正如银行业务一样,这种模式带来较高收益的同时,也带来了较高的风险。一旦资产价值下降或者发生违约,严重的话会引发银行接连倒闭的多米诺骨牌效应。
因此,CoreWeave这种重资产叠加高杠杆模式的可持续性取决于多个因素,包括市场对GPU的需求、英伟达的供应能力及大型科技公司自研芯片的进展。如果英伟达GPU的市场价值下降,CoreWeave可能会发现其GPU储备过剩,这可能会引起其抵押资产价值下降,进一步加剧财务风险。
CoreWeave的经营策略确实走到了一个关键时刻,其结果可能是巨大的成功或是失败。这种高风险高收益的模式,类似于在钢丝上行走,需要极高的精确度和平衡能力。
要么灭亡,要么彻底疯狂。而决定者,则是AI市场能否持续火热、英伟达的GPU能否持续成为这个时代的“香料”。
稿件经采用可获邀进入Z Finance内部社群,优秀者将成为签约作者,00后更有机会成为Z Finance的早期共创成员。