商业逻辑——为什么AI算力租赁具有商业价值

GPU多重参数影响大模型训练效果

单卡运算性能、显存和传输效率是影响GPU训练大模型效果的三个关键参数。从算力供给侧来看，单卡每秒运算次数、显存、传输效率从三个维度共同影响大模型的训练效果。

从模型需求侧来看，模型参数规模、训练数据集规模、训练批次大小以及模型训练方式决定了模型训练所需的总计算次数、训练和推理阶段所需的显存大小，从而进一步决定了大模型训练所需x少GPU数量以及模型训练时间。

英伟达A100-SXM和H100-SXM为目前训练大模型的首选GPU。英伟达GPU根据使用场景分为多种类别，其中以RTX4090等为代表的消费显卡主要用于游戏场景，以Tesla T4等为代表的工业显卡主要用于图形处理和人工智能推理领域，而以V100、A100、H100等为代表的加速计算卡主要用于人工智能训练场景。英伟达2017年5月将Tensor Core引入V100，大幅提升GPU进行混合精度矩阵乘加运算的速度，可大幅缩短AI场景下大规模矩阵计算的时间，为人工智能场景下的加速计算奠定了基础。随着模型参数的增加，对于GPU运算性能以及通信传输性能的逐步提升，目前搭载NVLink和IB网络的A100-SXM和H100- SXM成为大模型训练的首选GPU。

AI算力租赁业务应运而生

AI算力租赁业务聚焦于解决大模型训练的算力需求，连接多方资源。 AI算力租赁业务产生的两个催化条件：1）可用于大模型训练的算力资源和大模型训练需求供需失衡，短期算力需求远高于算力供给（尤其针对用于大模型训练的英伟达A100-SXM和H100-SXM两类GPU）；2）时间对于大模型研发厂商而言是较为稀缺的资源，即先行完成大模型研发的厂商有望获得更多的先发优势。 AI算力租赁的商业本质为具有大模型训练需求的软件研发厂商向具有GPU资源的厂商租赁GPU算力，按月或按年支付租金，市场上常见的租金计量方式包括：1）按整台服务器租赁（每台服务器含8张GPU），租金按照每台每月计量；2）按算力规模租赁，租金按每P每年计量；3）按单张GPU租赁，租金按照每GPU每小时计量。以上三类计量方式可相互换算。

AI算力租赁潜在需求规模

地方XXX是AI智算中心建设的主要规划与投资方。根据IDC圈，全国有超过30个城市正在建设或规划智算中心，其中一些已经投入运营或即将投入运营，总规划算力达到了数十 EFLOPS。若假设未来全国智算中心算力达到50EFLOPS（对应50000PFLOPS），对应AIDC建设规模空间为500-750亿元。据不完全统计，目前已经明确公开宣布规划或建设中的地方智算中心规模已超26000P（统一换算成FP16口径)。

对标GPT-3和GPT-4模型，算力需求非线性增长，受限于显存，单卡算力的升不会减少模型训练所需GPU的数量。GPT-3模型训练使用了128台英伟达A100服务器（训练34天），对应640P算力，GPT-4模型训练使用了3125台英伟达A100 服务器（训练90-100天），对应15625P算力。从GPT-3至GPT-4模型参数规模增加约10倍，但用于训练的GPU数量增加了近24倍（且不考虑模型训练时间的增长）。短期来看，我们考虑国内15家头部大模型厂商对标GPT-3模型的训练需求（百度、腾讯、阿里、字节、京东、美团、讯飞、网易、360、商汤、云从、百川、智谱、minimax、深言），则需要1920台A100/A800服务器（考虑到A100和H100的单卡显存容量相同，使用H100理论上也需要相同数量的服务器，但可以大幅缩短训练时间），对应15360张GPU。长期来看，我们考虑国内5家头部大模型厂商对标GPT-4模型的训练需求，则额外需要13705台A100/A800服务器，对应近11 万张GPU。

盈利模型——AI算力租赁业务的盈利能力

收入端

支持NVLink传输的A100算力资源主要集中在互联网大厂，但仍较为稀缺。从供给端来看，各大云厂商尚未推出基于H100/H800的云端GPU实例，目前的可租用资源以A100为主，但支持NVLink传输以及单卡达到80GB显存的GPU算力资源，目前只有火山引擎能提供可供租用的资源。从价格来看，GPU的租金价格随着配置性能的提升呈现上升趋势（不考虑CPU、存储等其他参数的影响），其中单就A100算力而言，x高配置约为x低配置价格的1.8倍。

成本端

AI算力租赁业务的运营成本主要包括设备折旧、数据中心日常运营、以及人员成本，其中设备折旧为非现金支出。设备折旧：设备折旧在AI算力租赁成本中占比x高，其中既包括服务器也包括网络设备等，且设备折旧年限对毛利率影响较大。仅以服务器为例：以市场7月A800服务器成交价140万元为例，若按3年摊销对应月折旧成本约为3.9万元，按5年摊销对应月折旧成本约为2.3万元，参考市场8卡A800- 80GB-NVLink实例月租金14.6万元，对应成本占比分别为27%和16%，对毛利率影响11pct。数据中心日常运营：主要包括数据中心运营所需的成本以及部分情景下对于机房改造的成本。数据中心运营：能源功耗成本（水电等）、散热成本、房屋租金成本等。数据中心改造成本（或有）：英伟达DGX H100服务器系统功耗约为10.2kW，而传统数据中心每个机架的功耗约 7kW，故而若采用H100/H800建设AI算力集群，还需对传统数据中心机房进行改造。人员成本：参考奥飞数据2022年报，人工成本在IDC服务业务成本中占比约3%，占IDC服务收入比例约2%。

海外映射——GPU云

海外云厂商纷纷入局AI计算资源XXX备战

短期来看，海外云厂商大量囤积英伟达A100/H100芯片；长期来看，头部厂商推进自研AI芯片。根据硅谷风投机构A16Z，生成式AI所产生总收入的10%~20%x终流向了云服务商。短期来看，英伟达A100和H100芯片是大模型训练与推理的x佳选择，生成式AI爆发之后，云服务商对于英伟达GPU的采购进一步加大。长期来看，头部厂商加速推进自研AI芯片计划，削减英伟达的“GPU税”。如谷歌、亚马逊、微软先后在内部启动自研AI芯片项目——谷歌的TPU系列，亚马逊的Inferentia和Trainium系列，以及微软的Athena芯片，但从通用计算数据中心到加速计算数据中心的过渡仍需要一定时间。

英伟达DGX Cloud

英伟达DGX Cloud是为客户打造的“软硬件一体及服务”，售价为每实例3.7万美元/月起。DGX Cloud是2023年3月英伟达推出的一项人工智能超计算服务，可以让企业快速访问为生成式人工智能和其他开创性应用训练高模型所需的基础设施和软件，价格为每实例3.7万美元/月起。与传统购买英伟达AI服务器相比，DGX Cloud还提供丰富的软件栈服务，如Base Command Platform（基础命令平台）、AI Enterprise、AI Foundations等，可为客户提供全面的AI算力支持及解决方案。Base Command Platform（基础命令平台）是一个管理与监控软件，不仅可以用来记录云端算力的训练负载，提供跨云端和本地算力的整合，还能让用户直接从浏览器访问 DGX Cloud； AI Enterprise是英伟达 AI 平台中的软件层，高达数千个软件包提供了各种预训练模型、AI 框架和加速库，从而简化端到端的 AI 开发和部署成本；AI Foundations是模型铸造服务，让企业用户可以使用自己的专有数据定制属于自己的垂直大模型；

微软 Azure

持续布局AI软硬件，提升产品竞争力。从Bing Chat，到跨Microsoft 365应用程序组合的CoPilot内容创建体验，使用GitHub Copilot进行自然语言编码等等，现在这些大型语言模型都在Azure中运行。Azure OpenAI 服务提供对GTP-4、 GPT-3、Codex 和 Embeddings 模型的访问权限。 Microsoft Azure 和 NVIDIA 使云中的企业能够利用 NVIDIA 加速计算和 NVIDIA 按需网络的组合功能，以满足人工智能、机器学习、数据分析、图形、虚拟桌面和高性能计算（HPC）应用程序的各种计算要求。客户可在Azure上使用ND A100 v4 VM、 NDm A100 v4 VM、NC A100 v4 VM、NV A10 v5 VM四类NVIDIA GPU虚拟机以满足不同情景下的需求。

甲骨文 OCI

凭借AI算力布局加速赶超，云基础设施IaaS收入连续多个季度增长超过50%。Oracle Cloud Infrastructure (OCI) 在一个全球云平台上提供 100 多个云服务和先进的行业特定 SaaS 应用。甲骨文公司与英伟达 (NVIDIA) 合作持续加深：全新的 Oracle 云基础设施远程软件服务（Oracle Cloud Infrastructure, OCI）Supercluster™ 上运行战略性 NVIDIA AI 应用。英伟达选择 OCI 作为该企业的超大规模云技术提供商，提供大规模的AI超计算服务 NVIDIA DGX Cloud™。英伟达基于 OCI 的 DGX Cloud 提供生成式 AI 云服务 NVIDIA AI Foundations。

国内算力租赁市场的未来——向云之路

GPU云是算力租赁业务的长期进阶方向，具有更高的价值量和技术壁垒，市场想象空间更大。算力租赁业务的本质是AI算力固定资产变现，就其商业模式而言，可挖掘的增量价值空间有限：从收入端来看，AI算力的出租价格受到市场供需关系以及市场竞争的影响：供不应求时，AI算力租赁厂商具有较高的议价权；而当算力资源紧缺程度缓解之后，AI算力租赁厂商议价权减弱，存在租金下行的风险。从成本端来看，给定算力租金水平和折旧年限，AI算力租赁的毛利率基本固定，可提升空间有限：由于AI算力租赁的成本由设备折旧摊销、数据中心能耗成本、人工运维成本构成，对于大部分成本AI算力租赁厂商处于被动接受的状态，议价能力弱。基于以上，我们认为算力租赁业务的利润规模量基本由投资规模决定，增厚利润的x有效方式为增大投资，扩张算力规模。

GPU云的本质是算力资源分配优化，同时提供AI软件开发相关的增值服务，壁垒高且易行程规模化优势：从收入端来看，给定算力规模和算力租金水平的情况下，算力的调度和优化能力可进一步增加GPU云厂商的收入天花板；同时，围绕AI软件开发相关的增值服务（PaaS层或SaaS层），可为GPU云厂商额外贡献增量收入，且收入天花板不受到算力规模的限制。从成本端来看，算力调度与软件增值服务的研发投入体现在费用端，随着对应营收规模的增长，盈利能力有望持续提升。基于以上，我们认为GPU云相较于算力租赁业务而言具有更高的技术壁垒以及成长性，我们看好AI算力租赁厂商向GPU云的迭代转型。

AI算力租赁行业分析报告怎么写：附行业发展趋势分析

商业逻辑——为什么AI算力租赁具有商业价值

盈利模型——AI算力租赁业务的盈利能力

相关标的——哪些上市公司在布局AI算力租赁

海外映射——GPU云

免责声明

点击拨打

15853833430

AI算力租赁行业分析报告怎么写：附行业发展趋势分析

商业逻辑——为什么AI算力租赁具有商业价值

盈利模型——AI算力租赁业务的盈利能力

相关标的——哪些上市公司在布局AI算力租赁

海外映射——GPU云

免责声明

相关文章

点击拨打

15853833430