聊聊这个算力新时代

不过很久没有写深度帖子的原因,应该大部分人都清楚,这是因为当下的市场,没有那么大的持续性的逻辑和行情。很难像以前一样找到一个大板块大方向,有很好的产业基础和产业趋势,写一个帖子出来足以让诸多逻辑驱动的机构等大资金一起共振。

在经过与诸多产业公司和产业专家的深入沟通,查阅相当多的资料之后,还是有一些心得分享给大家的,主要结论如下:

2、市场对行业的认知还在非常初级阶段,目前炒作也仅限于到卡数卡和规划算力的段子,非常表面;

3、未来胜出的以及股价最后能走出来的将是具备拿卡能力,拥有稳定客户,且在运维上拥有独特竞争力的公司。

去年底今年初,以ChatGPT为代表的语言大模型应用惊艳世界,人工智能商业化落地预期不断抬高,全世界范围内涌现了一大批大模型创业公司,全球对于大模型科研的热情持续高涨,随之而来的大模型训练、微调、推理需求急剧增加,催生了大量AI算力需求。

在开发周期中,需要大量的训练侧算力;当模型开发完成上线后,则不再需要训练算力而是推理算力。

现阶段AI应用的开发如火如荼,需求主要为能够满足训练模型要求的算力;当AI应用落地潮到来后,对于推理侧算力的需求将更为旺盛。

以训练算力为例,根据英伟达和斯坦福大学合作的论文,GPT-3假设使用1024张A100(约600P)进行训练,端到端训练时间大约需要34天。

以GPT-3到GPT-4的迭代为例,参数规模增大10倍,对应训练计算量增加至少60倍。根据媒体SemiAnalysis报道称GPT-4参数量为1.8万亿,且采用更大的训练集,GPT-4训练过程中A100卡数量达到万张量级。

上面第一小点大致解释了为何AI算力需求如此旺盛,但有个问题是这些需求为什么没有完全被云计算厂商承接住?

由于模型训练时要求大量GPU对同一个模型进行同时计算,但除了总峰值运算能力外,GPU间的连接方式同样直接影响了总体GPU的利用率。

传统的GPU集群在节点(单个服务器)内部可以使用大带宽机内连接,而在服务器之间仍然使用传统架构,故无法进行高效的多节点并行训练。

而高性能集群大量在节点间使用大带宽光模块进行互联,能够极大的提升多节点训练时的GPU利用率。对于生产AI应用的客户,高性能集群的设计建设直接关系到对于客户能够提供多少的有效算力。Nvidia同样关注这个市场,发布了自己的集群Nvidia DGX GH200。

简单来说,大模型训练需要的是具备高速互联基础的高性能GPU集群,传统的单个的计算是解决不了这些问题的。

传统云计算厂商提供的服务为可伸缩的单节点,关注点为节点的可用性与可靠性,并无节点间超高带宽互联的基础设施,正如前文所说,无法满足大模型训练客户的需求。

若要满足客户训练的需要,只能规划建设新的集群,而无法重复利用现有的基础设施。

而高性能集群专长为模型的训练,若用于普通互联网业务,从成本角度出发是非常昂贵的不划算的。

综上,云计算厂商在高性能集群的业务开展上并无优势,所以算力新时代爆发的时候,云计算厂商承接不住这么大的井喷需求,不然就没有其他算力租赁公司什么事了。

倘若只比较服务器采购成本与租金成本,算力租赁并不具备明显优势,但考虑到对算力的弹性需求,硬件采购、调试、维护成本,工程师研发时间成本,自建算力中心的模式对除了一部分算力资源复用率较高的互联网大厂外均不合适,算力租赁成为大多数大模型研发厂商的最佳选择。

除了大模型厂商,还有更多有训练和推理需求的客户,更是需要有算力租赁供应方的存在。

因为从推理侧来看,需求则更为旺盛。前面提到GPT-3大约需要1024张A100训练34天,而根据西部证券测算,ChatGPT的推理大约需要7000张A100算力卡持续运行来支持。

根据IDC数据显示,受AI影响,从2022年到2026年,中国区人工智能算力规模年复合增长率将达到52.3%。

燧原科技产品市场总经理高平表示:“往年,算力的年化增长率为20%至30%;今年,保守估计增速在50%以上,呈现井喷的状态。”

华为数字能源中国区副总裁胡春池称:“我们未来要真正掌握和占据数字经济的高地,中国人工智能的发展还有很长的路要走。站在未来十年来看,至少我们的算力需求的增长应该是在百倍以上。”

算力租赁,简单来说就是一家公司进行高性能集群设计建造后出租其能够提供的真实算力。

之后主要需要采购浪潮、新华三等厂家的AI服务器(又称节点,内含8张英伟达算力卡),采购高性能网络模块,建设机房(自有或租赁),做好电源等配套,做好硬件维护,运行好软硬件调度,再将集群提供的真实算力出租给有大模型训练需求客户。

市场不少人对于算力租赁业务的认知还处于初级阶段,我在这里先指出几点细节:

1. 这里所指的算力卡特指支持高速互联基础的数据中心用卡(如H100、H800),不包含4090、3090等滥竽充数的卡,4090这些基本上只能租给视频渲染用户或者小型科研用户。如果一家公司只说自己有多少P算力而没有说明卡的类型,需要研究清楚。

2. 带GPU服务器的整租和高性能GPU集群出租具有本质区别,GPU服务器整租仅为多个单节点的整体出租,由于大多数普通集群节点间没有高速连接,客户无法将多个单节点组成集群进行训练。从商业模式的角度来说,服务器节点出租后使用权属于客户,客户如何使用、亦或闲置与出租方无关,与传统的IDC并无区别。

3. 具备算力调度平台的高性能GPU集群除了能提供极大的高于普通集群的吞吐量(算力使用率),还可以实现算力资源智能管理,通过合理的峰谷算力调度,可以通过多个客户间的共享实现大于100%的真实算力使用率,即“超售”。

超售对于利润提升有极大帮助,根据东吴9月测算微软A800服务器毛利约为42%,净利率约为20%,假设一家公司能通过提高算力资源利用率超售10%,将直接使净利率提升50%达到30。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注