当下AI大模型的用户渗透率仍较低ღ★◈,大模型发展仍处于中初级阶段ღ★◈,产业化周期才开始ღ★◈,大模型带来的算力投资方兴未艾ღ★◈,资本开支会随着大模型收入的增长而增长ღ★◈,投资的天花板可以很高ღ★◈。我们持续推荐AI算力板块ღ★◈,包括国内算力产业链与北美算力产业链ღ★◈。
人工智能2025中期投资策略报告ღ★◈:推理走向舞台中央ღ★◈,自主可控大势所趋ღ★◈,Agent及多模态加速
博通公布截至2025年8月3日的2025财年第三财季业绩ღ★◈,营收ღ★◈、利润及业务指引全面超越市场预期ღ★◈。第三财季ღ★◈,博通实现营业收入159.5亿美元ღ★◈,同比增长22%ღ★◈,高于分析师预期的158.4亿美元ღ★◈,亦超出公司此前指引的158亿美元ღ★◈,创下公司历史上同期最高营收纪录ღ★◈,非GAAP口径下调整后净利润达84.04亿美元ღ★◈,同比增长37.3%ღ★◈;调整后EBITDA为107.02亿美元ღ★◈,同比增长30.1%喷涂材质ღ★◈。ღ★◈,超出市场预期的约105亿美元ღ★◈,利润率升至67.1%ღ★◈,前一季度利润率66.7%ღ★◈。同时ღ★◈,公司对第四财季给出强劲指引ღ★◈,预计营收约为174亿美元ღ★◈,同比增长23.8%ღ★◈,超过市场预期的170.5亿美元ღ★◈;EBITDA利润率预计维持在67%左右ღ★◈,高于分析师预期的66%ღ★◈。
博通CEO陈福阳表示ღ★◈,公司第三财季AI半导体收入同比增长63%至52亿美元ღ★◈,高于分析师预期的51.1亿美元ღ★◈,且增速较上一季度的46%进一步提升小猪视频草莓视频之类的ღ★◈。展望第四财季ღ★◈,博通预计AI芯片业务收入将大幅增长至62亿美元ღ★◈,实现连续11个季度增长ღ★◈,相当于环比增幅达19%ღ★◈。该指引较市场预期高出逾6%ღ★◈。陈福阳表示ღ★◈,公司正与多家潜在客户合作开发定制AI加速器ღ★◈,正式进军由英伟达主导的AI训练芯片市场ღ★◈。上个季度ღ★◈,其中一家潜在客户已向博通下达生产订单ღ★◈。虽未具名ღ★◈,但该“神秘客户”已确认为博通XPU平台的合格客户ღ★◈,并带来高达100亿美元的订单ღ★◈,成为继现有三大客户后的第四大定制AI客户ღ★◈。
我们认为ღ★◈,当下AI大模型的用户渗透率仍较低ღ★◈,大模型发展仍处于中初级阶段ღ★◈,产业化周期才开始ღ★◈,大模型带来的算力投资方兴未艾ღ★◈,资本开支会随着大模型收入的增长而增长ღ★◈,投资的天花板可以很高ღ★◈。我们持续推荐AI算力板块ღ★◈,包括国内算力产业链与北美算力产业链ღ★◈。
阿里发布2025Q2业绩ღ★◈,2025Q2阿里云业务营收333.98亿元ღ★◈,同比增长26%ღ★◈,AI相关收入继续保持三位数增长ღ★◈,外部商业化收入中AI贡献已超过20%ღ★◈,AI需求快速扩大ღ★◈,同时带动计算ღ★◈、存储及其它公有云服务需求上升ღ★◈。2025年第二季度ღ★◈,阿里巴巴的资本开支为386亿元美高梅游戏官方网址ღ★◈,同比增长220%ღ★◈,环比上季增长57.1%ღ★◈,创下单季历史新高ღ★◈。在财报电话会上ღ★◈,阿里巴巴CEO吴泳铭披露ღ★◈,过去四个季度ღ★◈,阿里已经在AI基础设施及AI产品研发上累计投入超1000亿元ღ★◈。公司重申ღ★◈,将在未来三年持续投入3800亿元用于AI资本开支ღ★◈,虽单季投资额会因供应链因素有所波动ღ★◈,但整体节奏不变ღ★◈。阿里透露ღ★◈,公司已为全球AI芯片供应及政策变化准备“后备方案”ღ★◈,通过与不同合作伙伴合作ღ★◈,建立多元化的供应链储备ღ★◈,从而确保投资计划能够如期推进ღ★◈。目前阿里已实现AI投入增加带来AI收入增加的正循环ღ★◈,建议关注阿里产业链ღ★◈,包括GPUღ★◈、IDCღ★◈、光模块ღ★◈、交换机等ღ★◈。
英伟达发布最新财季业绩ღ★◈,需求持续强劲ღ★◈,H20影响了公司收入ღ★◈。截至自然年2025年7月27日的FY26Q2ღ★◈,英伟达实现营收467.43亿美元ღ★◈,同比增长56%ღ★◈,其中数据中心营收411亿美元(H20销售收入减少40亿美元)ღ★◈,同比增长56%ღ★◈,Blackwell平台环比增长17%ღ★◈,并且公司在第二季度开始了GB300的生产出货ღ★◈。基于Blackwell架构ღ★◈,每token可实现10倍投资回报ღ★◈,相比Hopper在每token能效方面提升了50倍ღ★◈。FY26Q2ღ★◈,公司非GAAP口径下调整后的每股收益(EPS)为1.05美元ღ★◈,同比增长54%ღ★◈;公司FY26Q3营收指引中值为540亿美元(±2%)ღ★◈。英伟达表示ღ★◈,预计今年CSP等资本开支约6000亿美元ღ★◈,指引2030年全球AI基础设施支出将达到3万亿-4万亿美元ღ★◈。英伟达表示ღ★◈,今年中国市场预计规模约500亿美元ღ★◈,预计每年有望实现50%左右的增长ღ★◈。7月下旬ღ★◈,美国政府开始审查向中国客户销售H20的许可证ღ★◈,如地缘政治问题得到解决ღ★◈,公司有望在第三季度实现20亿至50亿美元的H20收入ღ★◈,此外将Blackwell带到中国市场的机会是真实存在的ღ★◈。
国务院日前印发《关于深入实施“人工智能+”行动的意见》ღ★◈。《意见》总体要求ღ★◈,到2027年ღ★◈,率先实现人工智能与6大重点领域广泛深度融合ღ★◈,新一代智能终端ღ★◈、智能体等应用普及率超70%ღ★◈,智能经济核心产业规模快速增长ღ★◈,人工智能在公共治理中的作用明显增强ღ★◈,人工智能开放合作体系不断完善ღ★◈。到2030年ღ★◈,我国人工智能全面赋能高质量发展ღ★◈,新一代智能终端ღ★◈、智能体等应用普及率超90%ღ★◈,智能经济成为我国经济发展的重要增长极ღ★◈,推动技术普惠和成果共享ღ★◈。到2035年ღ★◈,我国全面步入智能经济和智能社会发展新阶段ღ★◈,为基本实现社会主义现代化提供有力支撑ღ★◈。
从阿里巴巴以及英伟达的最新财报来看ღ★◈,国内外CSP厂商对于算力的投资仍然保持强劲的增长ღ★◈;阿里AI相关收入继续保持三位数增长ღ★◈,让人看到AI商业化落地的清晰路径ღ★◈,打消了投资者对AI投资回报的担忧ღ★◈。我们持续推荐算力板块ღ★◈,包括海外算力链和国产算力链ღ★◈。
国产算力板块迎来密集催化ღ★◈,腾讯业绩会表示推理芯片的供应渠道侧具备多种选择ღ★◈,国际供应链波动背景下国产推理算力芯片有望提供助力ღ★◈。DeepSeek更新模型ღ★◈,明确支持FP8精度与将发布的下一代国产芯片ღ★◈,头部国产开源模型对国产芯片的支持有望推动国产算力生态加速落地ღ★◈。华为昇腾芯片近期陆续参与到政府ღ★◈、金融ღ★◈、运营商等行业客户招投标产品中ღ★◈,印证国产芯片竞争力持续提升ღ★◈。
8月13日ღ★◈,腾讯业绩会表示公司推理芯片供应渠道侧具备多种选择ღ★◈。8月21日ღ★◈,DeepSeek更新模型版本至DeepSeek-V3.1ღ★◈,预计将支持FP8精度以及国产芯片ღ★◈。
腾讯业绩会表示未来推理芯片供给有望多元化ღ★◈,利好国产算力芯片厂商ღ★◈。8月13日ღ★◈,腾讯控股发布2025Q2业绩并举办说明会ღ★◈,会上腾讯总裁刘炽平表示当前公司AI芯片储备足以支持现有模型的训练及迭代升级ღ★◈;元宝ღ★◈、AI搜索等多个应用场景的用户数提升带来推理负载占比提升ღ★◈,公司一方面通过模型轻量化和软件优化来控制推理成本ღ★◈,另一方面公司在推理芯片的供应渠道侧也具备多种选择ღ★◈。当前海外高端芯片贸易政策仍存较大不确定性ღ★◈,腾讯有望依托华为ღ★◈、寒武纪ღ★◈、海光等国产厂商的推理芯片满足相关算力需求ღ★◈。
DeepSeek V3.1发布ღ★◈,预计支持FP8精度以及国产芯片ღ★◈。据官方公众号ღ★◈,DeepSeek今日正式发布DeepSeek-V3.1ღ★◈。目前官网与网页端模型已升级至最新版本ღ★◈,且新模型已在Huggingface开源ღ★◈。新版本模型主要升级体现在以下维度ღ★◈:(1)一个模型同时支持思考模式与非思考模式ღ★◈;(2)相比前代模型ღ★◈,新模型思考模式下能在更短时间内给出答案ღ★◈;(3)通过Post-Training优化ღ★◈,新模型具备更强的Agent能力ღ★◈。除去功能升级ღ★◈,新版本模型使用了UE8M0 FP8 Scale参数精度ღ★◈,该参数代表模型支持转为矩阵乘法等AI核心运算优化设计的FP8精度格式ღ★◈。相比FP16格式ღ★◈,FP8在同等芯片面积下能够实现翻倍性能ღ★◈,且功耗和带宽需求更低ღ★◈。此外ღ★◈,DeepSeek表示新精度格式针对即将发布的下一代国产芯片设计ღ★◈,表明未来基于DeepSeek模型的训练与推理有望更多应用国产AI芯片ღ★◈,助力国产算力生态加速建设ღ★◈。
华为昇腾芯片加速突围ღ★◈,国产芯片市场竞争力逐步提升ღ★◈。近期ღ★◈,基于华为昇腾芯片的服务器产品陆续在政府ღ★◈、金融ღ★◈、运营商等行业落地大单ღ★◈。上海浦发银行大模型算力扩容项目招标中ღ★◈,包含176台鲲鹏+昇腾配置的智算服务器ღ★◈;新疆疆算万卡枢纽型智算中心项目招标中ღ★◈,包含4500台昇腾910C-2服务器集群ღ★◈;中国移动2025-2026推理AI计算设备招标中ღ★◈,包含5000套CANN生态设备ღ★◈,即基于昇腾异构计算架构和昇腾芯片的服务器产品ღ★◈。由于海外供应链风险持续ღ★◈,国产芯片厂商产品性价比持续提升小猪视频草莓视频之类的ღ★◈,更多算力需求有望由国产芯片支持ღ★◈,国产芯片市场竞争力持续提升ღ★◈。
投资建议ღ★◈:国产算力板块迎来密集催化ღ★◈,腾讯业绩会表示推理芯片的供应渠道侧具备多种选择ღ★◈,国际供应链波动背景下国产推理算力芯片有望提供助力ღ★◈。DeepSeek更新模型ღ★◈,明确支持FP8精度与将发布的下一代国产芯片ღ★◈,头部国产开源模型对国产芯片的支持有望推动国产算力生态加速落地ღ★◈。华为昇腾芯片近期陆续参与到政府ღ★◈、金融ღ★◈、运营商等行业客户招投标产品中ღ★◈,印证国产芯片竞争力持续提升ღ★◈。
8月11日ღ★◈,马斯克旗下的人工智能公司xAI宣布Grok 4现已向全球所有用户免费开放ღ★◈,用户每天允许进行有限次数的查询ღ★◈,超出次数则需要付费订阅ღ★◈。苹果公司宣布ღ★◈,即将发布的iOS 26系统将集成OpenAI的GPT-5模型ღ★◈,为Apple智能带来显著的性能提升ღ★◈,当Apple智能无法处理特定请求时ღ★◈,将能够利用GPT-5的能力来提供更准确和更智能的响应ღ★◈。我们认为ღ★◈,当前AI大模型的用户渗透率仍较低ღ★◈,大模型发展仍处于中初级阶段ღ★◈,产业化应用周期才开始ღ★◈,大模型带来的算力投资方兴未艾ღ★◈,资本开支会随着大模型收入的增长而增长ღ★◈,投资的天花板可以很高ღ★◈。当前对于算力基础设施产业链ღ★◈,北美链和国产链都值得关注ღ★◈。
随着各方面应用的加速ღ★◈,AI算力消耗开始从训练走向推理ღ★◈,同时主权AI加大投入ღ★◈,带来显著的算力增量ღ★◈。探究背后增量需求主要来自四方面ღ★◈:
一是各家互联网大厂纷纷加速AI与原有业务结合ღ★◈,如谷歌搜索在今年5月21日正式迎来 AI 模式ღ★◈,并逐步在美国市场推出ღ★◈,考虑到谷歌搜索全球范围内年搜索量为5万亿次+ღ★◈,假设单次回答平均为2000tokenღ★◈,则该功能都将带来日均27万亿token消耗(超过其Gemini模型目前日均16万亿token消耗)ღ★◈,类似案例如抖音搜索ღ★◈、微博AI智搜ღ★◈,搜索功能开始从普通服务器迁移到AI服务器并重塑所有搜索体验ღ★◈,类似的视频编辑ღ★◈、剪辑功能也被AI重塑ღ★◈;
二是Agent和深度思考推理的结合ღ★◈,通过两者结合ღ★◈,Agent执行任务准确率大幅提高ღ★◈,Agent执行一次任务平均消耗token达到10万的量级ღ★◈,大幅超过AI搜索单次问答token消耗ღ★◈,并且能延伸到更多开放式场景ღ★◈,同时多Agent协作的群体智能也已开始逐步商用化ღ★◈,过去复杂ღ★◈、多步骤的任务可通过Agent实现ღ★◈,Agent的普及将带来推理算力需求的大幅增长ღ★◈;
三是多模态ღ★◈,随着多模态生成的图片及视频质量今年均显著提升ღ★◈,今年AI营销内容占比提升十分明显ღ★◈,根据《2025中国广告主营销趋势调查报告》显示“超过50%的广告主ღ★◈,已经在生成创意内容时使用AIGCღ★◈,并且AI营销内容占比超过10%”美高梅游戏官方网址ღ★◈,而一分钟视频的生成token消耗基本在10万token至百万token量级ღ★◈,目前多模态模型开始步入快速商业化阶段ღ★◈,如快手可灵四五月连续两月付费金额超过1亿ღ★◈,多模态的加速渗透带来明显的算力需求提升ღ★◈。
四是主权AIღ★◈,科研和军事领域是关键ღ★◈,随之扩展到其他各行业的效率提升ღ★◈,典型代表为美国重点推进其“星际之门”计划ღ★◈。与之而来的是各国政府也纷纷开启主权AI的投资计划ღ★◈,尤其是以欧洲ღ★◈、中东ღ★◈、日本等国为代表ღ★◈,投资体量超过3000亿美金ღ★◈。
算力方面从投资角度来看ღ★◈,一是随着推理占比的提升ღ★◈,云计算厂商投入产出比逐渐清晰ღ★◈,并且超卖率有望继续提升ღ★◈,从而带动利润率提升ღ★◈;二是围绕机柜增量变化及新技术投资ღ★◈,25年下半年核心是英伟达NVL72机柜上量ღ★◈,其中液冷散热ღ★◈、铜连接ღ★◈、电源变化最大ღ★◈:三是围绕估值性价比ღ★◈、景气度投资ღ★◈,重视PCBღ★◈、光模块等供应链美高梅澳门娱乐app下载ღ★◈,ღ★◈。
1)散热方面ღ★◈:散热方面将是AI算力领域未来几年核心技术升级方向之一ღ★◈,英伟达单卡功耗从700瓦到1200ღ★◈、1400瓦ღ★◈,未来有望迭代至2000瓦+ღ★◈,并且大机柜ღ★◈、超节点的出现ღ★◈,热源的叠加使得散热难度进一步提升ღ★◈,因此散热成为了接下来持续迭代升级的方向ღ★◈。其次ღ★◈,目前供应商以台系ღ★◈、美系厂为主ღ★◈,如Coolermasterღ★◈、AVCღ★◈、BOYD及台达等ღ★◈,中国大陆供应商比例较低ღ★◈,随着液冷散热从研发走向大规模量产ღ★◈,中国大陆公司扩产能力更具优势ღ★◈,我们认为液冷散热领域一系列部件会有更多中国大陆供应商进入到全球供应体系ღ★◈。
2)铜链接ღ★◈:铜线在短距数据传输的成熟度更高且448G等新技术路线逐步面世ღ★◈,今年扩产最快的公司将充分享受从Blackwell到Rubin所带来的高速连接需求增长ღ★◈。
3)电源领域ღ★◈:高功率带动单W价值提升ღ★◈。PSU是服务器电源进行AC-DC转换的核心ღ★◈,随着单体功率密度的提升ღ★◈,单W价格也在提升小猪视频草莓视频之类的ღ★◈,呈现量价齐升局面ღ★◈。新一代GB300等GPU方案中ღ★◈,BBUღ★◈、CBU逐步成为标配ღ★◈,能够解决负载波动率大的供电稳定ღ★◈、电压稳定问题ღ★◈。目前5.5 KW电源已进入量产阶段ღ★◈,后续伴随2026 下半年800 V HVDC 数据中心电力基础设施及 1 MW IT 机架逐步落地ღ★◈,电源将持续升级ღ★◈。随着功率密度要求的提升ღ★◈,UPS目前正在由600kW级向MW级迈进ღ★◈,以应对越来越大的功率密度需求ღ★◈,未来AIDC有望全面切换到HVDC为代表的全直流供电方案ღ★◈,电压等级也提升至800Vღ★◈。巴拿马电源等集成化ღ★◈、模块化产品逐步成为大厂青睐的主流ღ★◈,更先进的固态变压器(SST)也已开始研发和测试ღ★◈。
4)PCBღ★◈:亚马逊ღ★◈、METAღ★◈、谷歌等自研芯片设计能力弱于英伟达ღ★◈,因此对PCB等材料要求更高ღ★◈,价值量更有弹性ღ★◈。随着短距离数据传输要求不断提高ღ★◈,PCB持续升级ღ★◈,并带动产业链上游升级ღ★◈,覆铜板从M6/M7升级到M8/M9ღ★◈。伴随国内PCB公司在全球份额持续提升ღ★◈,并带动上游产业链国产化ღ★◈,从覆铜板出发ღ★◈,并带动上游高端树脂ღ★◈、玻纤布ღ★◈、铜箔等国内份额进一步提升ღ★◈。
5)光模块ღ★◈:除了GPU等算力硬件需求强劲ღ★◈,也催生了网络端更大带宽需求ღ★◈。优秀的网络性能可以提升计算效率ღ★◈,显著提升算力水平ღ★◈。相较于传统的云计算网络ღ★◈,AI训练组网由叶脊架构向胖树架构转变ღ★◈,交换机和光模块数量大幅提升ღ★◈,且随着通信数据量的增加ღ★◈,对光模块的速率要求也更高ღ★◈。800G光模块2023年开始放量ღ★◈,2024-2026年都保持高速增长ღ★◈;1.6T光模块2025年开始出货ღ★◈,2026年有望放量ღ★◈,整个光模块产业链迎来量价齐升的景气周期ღ★◈。从竞争格局看ღ★◈,国内光模块巨头经历了一轮又一轮的竞争ღ★◈,与北美的云厂商深度绑定ღ★◈,占据了全球光模块市场的主要份额ღ★◈。从未来技术趋势演进看ღ★◈,我们建议关注硅光与CPO(共封装光学)ღ★◈。
6)先进封装ღ★◈、HBMღ★◈:为了解决先进制程成本快速提升和“内存墙”等问题ღ★◈,Chiplet设计+异构先进封装成为性能与成本平衡的最佳方案ღ★◈,台积电开发的CoWoS封装技术可以实现计算核心与HBM通过2.5D封装互连ღ★◈,因此英伟达A100ღ★◈、H100等AI芯片纷纷采用台积电CoWos封装ღ★◈,并分别配备40GB HBM2Eღ★◈、80GB的HBM3内存ღ★◈。全球晶圆代工龙头台积电打造全球2.5D/3D先进封装工艺标杆ღ★◈,未来几年封装市场增长主要受益于先进封装的扩产ღ★◈。先进封装市场的快速增长ღ★◈,有望成为国内晶圆代工厂商与封测厂商的新一轮成长驱动力ღ★◈。
7)国内算力链ღ★◈:一方面来自于美国BIS政策的持续收紧ღ★◈,中期维度看ღ★◈,国产芯片占比提升是必然趋势ღ★◈。考虑到国产芯片逐渐进入量产交付阶段ღ★◈,预期市场集中度将看到显著提升ღ★◈。另一方面随着国内算力消耗快速增长(典型如字节跳动ღ★◈,每三个月token消耗接近翻一倍ღ★◈,5月底为16.4万亿token)ღ★◈,我们预计国内各家大型云厂商在日均token消耗达到30万亿token时会感受到算力紧张ღ★◈,在达到60万亿token时会开始出现一定算力缺口ღ★◈。我们认为国内增速斜率更陡峭ღ★◈,国产芯片今年将迎来发展大年ღ★◈。
2025年8月8日ღ★◈,GPT-5正式发布ღ★◈,包含GPT-5ღ★◈、GPT-5-Miniღ★◈、GPT-5-Nano三个版本ღ★◈。GPT-5在数学ღ★◈、编程ღ★◈、视觉理解和健康领域表现突出ღ★◈,在数学AIME 2025(无工具)测试得分 94.6%ღ★◈、真实世界编码SWE-bench Verified得分 74.9%ღ★◈、多模态理解MMMU 得分 84.2%ღ★◈,健康HealthBench Hard 得分 46.2%ღ★◈,在各方面均位居前列ღ★◈。值得一提的是ღ★◈,GPT-5幻觉显著降低ღ★◈。在启用网页搜索时ღ★◈,GPT-5响应的事实错误率较GPT-4o降低约45%ღ★◈;深度思考模式下ღ★◈,错误率较OpenAI o3降低近80%ღ★◈。token定价方面ღ★◈,GPT-5为每百万输入token 1.25美元ღ★◈,每百万输出token 10美元ღ★◈,Mini和Nano则为GPT-5的1/5和1/25ღ★◈。随着近期Grok4ღ★◈、Genie3的陆续发布ღ★◈,大模型迭代提速ღ★◈,且准确率提升ღ★◈、成本降低ღ★◈,预计将加速AI应用的爆发ღ★◈,商业化也有望提速ღ★◈,帮助互联网大厂形成AI投入到商业变现的闭环ღ★◈,我们建议持续关注算力基础设施与AI应用等环节ღ★◈。
算力基础设施产业链我们认为北美链和国产连都值得关注ღ★◈。前期ღ★◈,受到供应链影响ღ★◈,国内AI算力基础设施投资节奏受到一定影响ღ★◈,但我们认为国内的需求依然旺盛ღ★◈,只是短期节奏受到一些干扰ღ★◈,但后续随着算力缺口的出现及扩大ღ★◈,国内的部署节奏有望恢复ღ★◈、甚至提速ღ★◈,建议择机布局IDC美高梅游戏(MGM)官方网站ღ★◈,ღ★◈、液冷ღ★◈、光模块ღ★◈、交换机等板块ღ★◈。
在人工智能行业不断取得进展ღ★◈,以及相关产业链上市公司业绩预告表现亮眼的共同驱动下ღ★◈,通信指数上涨7.56%ღ★◈,在申万31个一级行业中排名第1ღ★◈。扎克伯格在表示ღ★◈,Meta将投资数千亿美元建设几座大型数据中心ღ★◈,用于支持其人工智能的发展ღ★◈,目标是实现通用人工智能ღ★◈,其中首个数据中心预计将于明年投入使用ღ★◈。7月18日ღ★◈,OpenAI宣布将在ChatGPT中推出一款通用型AI智能体ღ★◈,该公司表示该智能体可以帮助用户完成各种基于计算机的任务ღ★◈。此外ღ★◈,根据英伟达官网消息显示ღ★◈,英伟达将恢复向中国销售H20ღ★◈,并宣布推出一款全新ღ★◈、完全合规的面向中国的GPUღ★◈,美国政府已明确表示将批准相关许可ღ★◈,预计不久后即可启动交付ღ★◈。
算力链公司发布业绩预告ღ★◈,实现快速增长ღ★◈,持续验证AI带动的算力行业景气度依然较高ღ★◈。当前位置ღ★◈,我们认为AI大模型的竞争与迭代仍在持续ღ★◈,意味着算力投资大概率依然维持较高强度ღ★◈,因此继续推荐算力板块ღ★◈:一是业绩持续高增长且估值仍处于历史较低水平的北美算力链核心标的ღ★◈;二是有望享受外溢需求ღ★◈、取得客户或份额突破的公司ღ★◈;三是上游紧缺的环节ღ★◈;四是随着GB300的批量出货ღ★◈,建议重点关注 1.6T光模块及CPO产业链ღ★◈;五是随着H20供应恢复ღ★◈、NV将向中国推出全新GPU等ღ★◈,建议关注国产算力链ღ★◈。
我们认为随着大模型的不断迭代ღ★◈,产业将向通用人工智能方向发展ღ★◈,AI应用仍值得期待ღ★◈,叠加宇树IPOღ★◈,建议关注AI端侧的芯片ღ★◈、模组等产业链ღ★◈。此外ღ★◈,我们仍继续推荐电信运营商ღ★◈、军工通信等板块ღ★◈。
7月10日ღ★◈,xAI正式发布Grok 4ღ★◈,在GBQA(博士级问题集)ღ★◈、AMC 25(美国数学邀请赛)ღ★◈、Live Coding Benchmark(编程能力测试)ღ★◈、HMMT(哈佛-MIT数学竞赛)ღ★◈、USAMO(美国数学奥林匹克)等测试中均表现出色ღ★◈。马斯克表示ღ★◈,“现在在学术问题上ღ★◈,Grok 4比博士水平在每个学科都要强ღ★◈,没有例外ღ★◈。”定价方面ღ★◈,Grok 4基础版本为30美金一个月ღ★◈;Grok 4Heavy为300美金/月ღ★◈。后续产品路线月将发布专门编程模型ღ★◈;9月发布多模态智能体ღ★◈;10月发布视频生成模型ღ★◈。
Grok4 在性能上的强势提升与模型版本的快速迭代ღ★◈,这背后离不开强大的算力支撑ღ★◈,xAI在美国田纳西州孟菲斯建立了超级计算中心“Colossus”ღ★◈,2024年7月启动时配备了10万块英伟达H100 GPUღ★◈,到2025年2月ღ★◈,GPU数量已翻倍至20万块ღ★◈。Grok4用于RL的计算资源几乎与预训练时使用的相同ღ★◈。
当前位置ღ★◈,我们认为AI大模型的竞争与迭代仍在持续ღ★◈,意味着算力投资大概率依然维持较高强度ღ★◈,因此继续推荐算力板块ღ★◈:一是业绩持续高增长且估值仍处于历史较低水平的北美算力链核心标的ღ★◈;二是有望享受外溢需求ღ★◈、取得客户或份额突破的公司ღ★◈;三是上游紧缺的环节ღ★◈;四是随着GB300的批量出货ღ★◈,建议重点关注 1.6T光模块及 CPO 产业链ღ★◈。
近期ღ★◈,算力板块表现出色ღ★◈。虽然经历了年初deepseek出圈ღ★◈,以及关税政策调整带来的两波较大的股价调整ღ★◈,但是随着海外CSP厂商capex的乐观指引ღ★◈,大模型及各种Agent带来tokens爆发式增长ღ★◈,OpenAI和Anthropic等公司的ARR大幅提升ღ★◈,市场对于未来AI算力投资的信心不断增强ღ★◈。
小米AI眼镜发布ღ★◈,重量40gღ★◈,续航达8.6小时ღ★◈,价格为国补后1699元起ღ★◈,同时推出单色/彩色电致变色的选配版本ღ★◈。小米AI眼镜作为其随身AI接口ღ★◈,支持口令ღ★◈、多模态ღ★◈、扫码支付ღ★◈、语音控制和会议纪要等多种功能ღ★◈,是未来重要的端侧AI产品之一ღ★◈。建议继续重视智能眼镜供应链ღ★◈,包括整机ღ★◈、代工ღ★◈、软件与算法环节相关标的ღ★◈。
工信部披露运营商今年1-5月电信业务收入ღ★◈,同比增长1.4%ღ★◈,1-3月同比增速为0.7%ღ★◈,1-4月同比增速为1%ღ★◈,意味着4月和5月电信业务收入增速持续提升ღ★◈,分别达到2.0%和2.7%ღ★◈。我们持续推荐运营商ღ★◈。
英伟达召开2025年度股东大会ღ★◈,机器人融合人工智能打造新万亿级市场空间ღ★◈。英伟达于美国当地时间6月25日召开股东大会ღ★◈,CEO黄仁勋宣布将机器人列为仅次于AI计算的公司第二大增长引擎ღ★◈,目标通过融合AI与机器人技术开辟“物理世界AI”新万亿级市场ღ★◈。为实现这一愿景ღ★◈,英伟达构建了全栈式技术壁垒ღ★◈:硬件层推出新一代机器人芯片 Thor SoCღ★◈,兼容工业机械臂与自动驾驶车辆ღ★◈;软件层依托 Isaac Robotics平台整合GR00T人形机器人基础模型ღ★◈,支持多模态感知与物理仿真ღ★◈。无论自动驾驶还是更广阔的机器人应用ღ★◈,其训练软件都将依托于英伟达强大的数据中心芯片ღ★◈,端侧应用设备则采用其他专业芯片支持运行ღ★◈。展望未来ღ★◈,英伟达将由芯片供应商向“AI基础设施”平台商转型ღ★◈,搭建AI工厂进而成为AI产业的核心基础架构ღ★◈。当前机器人和汽车业务占英伟达整体收入比例约1%ღ★◈,但人工智能结合机器人ღ★◈、自动驾驶将发展成为万亿美元级别的增量市场空间ღ★◈。
全球Token消耗量呈现爆发式增长ღ★◈,免费AI服务的规模化普及成为核心引擎ღ★◈。谷歌将AI能力融合到搜索场景中ღ★◈,AI Overviews功能推动其2025年4月推理Token消耗量飙升至480万亿/月ღ★◈,较2024年同期的9.7万亿激增50倍ღ★◈。这一增长直接受益于其覆盖45亿用户的免费服务生态ღ★◈;中国市场的C端应用同样爆发ღ★◈,字节跳动豆包大模型日均Token调用量从2024年12月的4万亿跃升至2025年5月的16.4万亿ღ★◈,其中超60%消耗量来自抖音ღ★◈、今日头条的AIGC营销内容生成ღ★◈。与此同时ღ★◈,企业级Agent任务复杂度升级大幅推高单次消耗量ღ★◈:企业端单Agent解决供应链美高梅游戏官方网址ღ★◈、财务等场景对于tokens消耗量达到十万数量级ღ★◈,针对复杂场景或多Agent协同则可能突破百万级别ღ★◈,较传统问答tokens消耗增长约2个数量级ღ★◈。当前海内外头部厂商持续发力算力基础设施建设ღ★◈,以满足激增的推理算力需求ღ★◈。
ASIC市场空间预期持续上调ღ★◈,助力各大云厂商自研AI芯片以满足激增算力需求ღ★◈。全球ASIC市场空间预期持续上调ღ★◈,核心驱动力源于云计算巨头为满足激增的AI算力需求而加速自研芯片部署ღ★◈。Marvell 在投资者交流会中提及其为微软Azure定制的ASIC芯片单token成本较GPU方案显著降低ღ★◈,同时解决了英伟达芯片供给缺口ღ★◈。Marvell为AWSღ★◈、微软ღ★◈、谷歌ღ★◈、Meta等提供底层算力支持ღ★◈,得益于上述云厂商强劲的算力需求ღ★◈,Marvell预计2028年数据中心资本开支将超过一万亿美元ღ★◈,同时进一步上调数据中心市场规模2028年预期至940亿美元ღ★◈,较2024年4月的预期750亿美元上调26%ღ★◈,其中上调定制计算芯片(XPU和XPU配套芯片)市场规模指引37%ღ★◈。Marvell的竞争对手博通同样发力ASIC市场ღ★◈,博通CEO在业绩说明会上表示ღ★◈,2025财年第二季度博通人工智能收入超44亿美元ღ★◈,预计人工智能半导体收入将在第三季度增长至51亿美元ღ★◈,实现连续十个季度的增长ღ★◈,明年XPU部署将显著增加ღ★◈,超出公司此前预期ღ★◈。
6月20日ღ★◈,在2025华为开发者大会(HDC 2025)上ღ★◈,华为云正式发布盘古大模型5.5及新一代昇腾AI云服务ღ★◈,实现AI基础设施与大模型技术的协同突破ღ★◈。本次升级覆盖自然语言处理(NLP)ღ★◈、多模态ღ★◈、预测ღ★◈、科学计算及计算机视觉(CV)五大领域ღ★◈,通过架构创新显著提升性能与能效ღ★◈,并深化工业ღ★◈、气象ღ★◈、能源等场景应用ღ★◈,加速产业智能化转型ღ★◈。
面对大模型训练与推理引发的算力需求指数级增长ღ★◈,传统计算架构已触及性能瓶颈ღ★◈。华为云此次发布的昇腾AI云服务ღ★◈,通过CloudMatrix384超节点架构实现基础层突破ღ★◈:该架构创新性地将384颗昇腾NPU与192颗鲲鹏CPU经由全对等互联的MatrixLink高速网络整合为高密度异构计算单元ღ★◈,形成具备超域并行能力的AI算力基座ღ★◈。关键性能指标实现代际跨越——单卡推理吞吐量提升至2300 Token/sღ★◈,较传统架构相比提升近4倍ღ★◈,彻底释放大模型推理效能ღ★◈。
在架构设计上ღ★◈,超节点针对混合专家模型(MoE) 的稀疏计算特性进行深度优化ღ★◈:1)首创 “一卡一专家”并行范式 ღ★◈,单节点即可承载384个专家模块的协同推理ღ★◈,显著降低通信开销ღ★◈;2)支持“算子级任务编排”ღ★◈,通过动态资源切片实现“一卡多任务”并发处理ღ★◈,使算力有效利用率(MFU)提升超50%ღ★◈,从根本上解决传统架构的算力闲置问题ღ★◈。
对于十万亿参数级别的训练场景ღ★◈,系统支持级联弹性扩展——通过432个超节点构建16万卡级算力集群ღ★◈,并创新性地实现训推一体化调度ღ★◈:采用 “日推夜训”动态资源池 策略美高梅澳门娱乐平台下载ღ★◈!ღ★◈,依据负载峰谷智能调配算力ღ★◈,在保障日间高并发推理需求的同时ღ★◈,利用闲置资源进行夜间模型训练ღ★◈。
此次ღ★◈,盘古 5.5 在 NLP 领域主要有三大模型组成ღ★◈,即盘古 Ultra MoEღ★◈、盘古 Pro MoEღ★◈、盘古 Embeddingღ★◈;以及快慢思考合一的高效推理策略ღ★◈、智能体产品DeepDiverღ★◈。
Ultra MoE(7180亿参数) 作为准万亿级深度思考模型ღ★◈,基于昇腾全栈软硬件协同优化ღ★◈,首创 Depth-Scaled Sandwich-Norm(DSSN)稳定架构 与 TinyInit小初始化技术 ღ★◈,在CloudMatrix384集群上完成10+T token数据的稳定训练ღ★◈。其创新性 EP Group Loss负载均衡机制ღ★◈,保障256个专家模块高效协同ღ★◈,结合 “MLA多层级注意力”“MTP混合精度训练”策略ღ★◈,在知识推理ღ★◈、数学计算等任务中达到国际前沿水平ღ★◈。
Pro MoE(72B A16B) 专为昇腾硬件定制ღ★◈,通过分组混合专家算法(MoGE) 解决跨芯片负载不均衡问题ღ★◈。该模型针对300I Duo推理芯片优化架构拓扑ღ★◈,每次仅激活160亿参数(16B)ღ★◈,在800I A2芯片实现 1529 Token/s 的极致吞吐效率ღ★◈,较同规模模型提升15%以上ღ★◈。SuperCLUE榜单验证其智能体任务能力比肩6710亿参数模型ღ★◈,成为商业落地最优解ღ★◈。
Embedding(7B) 轻量化模型突破规模限制ღ★◈,采用“渐进式SFT微调”与 “多维度强化学习 ”策略ღ★◈,模型在学科知识ღ★◈、编码ღ★◈、数学和对话能力方面均优于同期同规模模型ღ★◈,为边缘端部署提供高性价比解决方案ღ★◈。
同时ღ★◈,华为提出了自适应快慢思考合一的高效推理方案ღ★◈,构建难度感知的快慢思考数据并提出两阶段渐进训练策略ღ★◈,让盘古模型可以根据问题难易程度自适应地切换快慢思考ღ★◈。通过构建包含200万样本的难度感知数据集形成动态感知机制ღ★◈,基于问题复杂度分级标注ღ★◈,训练轻量级判别模块实现毫秒级难度判定ღ★◈,通过系统级训练框架实现模型内生决策能力ღ★◈,打破“人工规则切换”局限ღ★◈。
华为推出的DeepDiver智能体通过强化学习框架重构开放域信息获取路径ღ★◈,基于7B轻量模型实现千亿级复杂任务处理能力ღ★◈。该产品构建百万级合成交互数据集模拟真实搜索环境ღ★◈,采用渐进式奖励策略优化多跳推理能力ღ★◈,深度融合知识边界判定与结构化验证机制ღ★◈,突破传统引擎的关键信息遗漏瓶颈ღ★◈;技术实现上通过延时敏感型调度器协调128节点昇腾集群ღ★◈,结合主机-设备自适应权重迁移技术消除数据传输延迟ღ★◈,使单次任务可完成10跳深度推理链挖掘ღ★◈。目前已在投研智库ღ★◈、专利预警ღ★◈、医疗证据链分析等场景验证其颠覆性价值ღ★◈,推动AI智能体从工具执行向战略决策角色演进ღ★◈。
盘古预测模型采用业界首创的triplet transformer统一预训练架构ღ★◈,将不同行业的数据ღ★◈,包括工艺参数的表格数据ღ★◈,设备运行日志的时间序列数据ღ★◈,产品检测的图片数据进行统一的三元组编码ღ★◈,并在同一框架内高效处理和预训练ღ★◈,极大地提升预测大模型的精度ღ★◈,并大幅提升跨行业ღ★◈、跨场景的泛化性ღ★◈。助力宝武钢铁高炉出铁温度合格率突破90%ღ★◈,云南铝业电解铝工艺年省电2600万度ღ★◈。
CV视觉模型以300亿MoE架构构建跨模态工业样本库ღ★◈,全面支持图像ღ★◈、红外ღ★◈、激光点云ღ★◈、光谱ღ★◈、雷达等多维度ღ★◈、泛视觉的感知ღ★◈、分析与决策ღ★◈。另外ღ★◈,盘古CV大模型通过跨维度生成模型ღ★◈,构建油气ღ★◈、交通ღ★◈、煤矿等工业场景稀缺的泛视觉故障样本库ღ★◈,极大地提升了业务场景的可识别种类与精度ღ★◈。推动中石油亚毫米级缺陷识别效率提升40%ღ★◈。
科学计算模型在气象领域支撑深圳“智霁”实现区域集合预报ღ★◈,重庆“天资·12h”模型提升强降水预警精度ღ★◈,深圳能源风光发电预测优化清洁能源消纳效率ღ★◈。
盘古大模型持续深耕行业ღ★◈,已在30多个行业ღ★◈、500多个场景中落地ღ★◈,在政务ღ★◈、金融ღ★◈、制造ღ★◈、医疗ღ★◈、煤矿ღ★◈、钢铁ღ★◈、铁路ღ★◈、自动驾驶ღ★◈、气象等领域发挥巨大价值ღ★◈,实现产业智能化转型ღ★◈。
Deepseek发布深度推理能力模型ღ★◈。R1-Zero采用纯粹的强化学习训练ღ★◈,证明了大语言模型仅通过强化学习也可以有强大的推理能力ღ★◈,DeepSeek-R1经历微调和强化学习取得了与OpenAI-o1-1217相媲美甚至超越的成绩ღ★◈。DeepSeek R1训练和推理算力需求较低ღ★◈,主要原因是DeepSeek R1实现算法ღ★◈、框架和硬件的优化协同ღ★◈。过去的预训练侧的scaling law正逐步迈向更广阔的空间ღ★◈,在深度推理的阶段ღ★◈,模型的未来算力需求依然会呈现爆发式上涨ღ★◈,充足的算力需求对于人工智能模型的性能进步依然至关重要ღ★◈。
Deepseek发布深度推理能力模型美高梅游戏官方网址ღ★◈,性能和成本方面表现出色ღ★◈。Deepseek发布两款具备深度推理能力的大模型R1-Zero和DeepSeek-R1ღ★◈。R1-Zero采用纯粹的强化学习训练ღ★◈,模型效果逼近OpenAI o1模型ღ★◈,证明了大语言模型仅通过RLღ★◈,无SFTღ★◈,大模型也可以有强大的推理能力ღ★◈。但是R1-Zero也存在可读性差和语言混合的问题ღ★◈,在进一步的优化过程中ღ★◈,DeepSeek-V3-Base经历两次微调和两次强化学习得到R1模型ღ★◈,主要包括冷启动阶段ღ★◈、面向推理的强化学习ღ★◈、拒绝采样与监督微调ღ★◈、面向全场景的强化学习四个阶段ღ★◈,R1在推理任务上表现出色ღ★◈,特别是在AIME 2024ღ★◈、MATH-500和Codeforces等任务上ღ★◈,取得了与OpenAI-o1-1217相媲美甚至超越的成绩ღ★◈。
国产模型迈向深度推理ღ★◈,策略创新百花齐放ღ★◈。在Deepseek R1-Zero模型中ღ★◈,采用的强化学习策略是GRPO策略ღ★◈,取消价值网络ღ★◈,采用分组相对奖励ღ★◈,专门优化数学推理任务ღ★◈,减少计算资源消耗ღ★◈;KIMI 1.5采用Partial rollout的强化学习策略ღ★◈,同时采用模型合并ღ★◈、最短拒绝采样ღ★◈、DPO 和long2short RL策略实现短链推理ღ★◈;Qwen2.5扩大监督微调数据范围以及两阶段强化学习ღ★◈,增强模型处理能力ღ★◈。
DeepSeek R1通过较少算力实现高性能模型表现ღ★◈,主要原因是DeepSeek R1实现算法ღ★◈、框架和硬件的优化协同ღ★◈。DeepSeek R1在诸多维度上进行了大量优化ღ★◈,算法层面引入专家混合模型ღ★◈、多头隐式注意力ღ★◈、多token预测ღ★◈,框架层面实现FP8混合精度训练ღ★◈,硬件层面采用优化的流水线并行策略ღ★◈,同时高效配置专家分发与跨节点通信ღ★◈,实现最优效率配置ღ★◈。当前阶段大模型行业正处于从传统的生成式模型向深度推理模型过渡阶段ღ★◈,算力的整体需求也从预训练阶段逐步过渡向后训练和推理侧ღ★◈,通过大量协同优化ღ★◈,DeepSeek R1在特定发展阶段通过较少算力实现高性能模型表现ღ★◈,算力行业的长期增长逻辑并未受到挑战ღ★◈。过去的预训练侧的scaling law正逐步迈向更广阔的空间ღ★◈,在深度推理的阶段ღ★◈,模型的未来算力需求依然会呈现爆发式上涨ღ★◈,充足的算力需求对于人工智能模型的性能进步依然至关重要ღ★◈。
北美四大云厂商一季度资本开支持续高增ღ★◈,总计773亿美元ღ★◈,同比增长62%ღ★◈。其中ღ★◈,2025Q1亚马逊的capex为250亿美元ღ★◈,同比增长68%ღ★◈,微软的capex为214亿美元ღ★◈,同比增长53%ღ★◈,谷歌的capex为172亿美元ღ★◈,同比增长43%ღ★◈,Meta的capex为137亿美元ღ★◈,同比增长104%ღ★◈。四家云厂商对于2025年资本开支的指引保持乐观ღ★◈,谷歌ღ★◈、亚马逊ღ★◈、微软表示年初资本开支指引保持不变ღ★◈,Meta将全年资本开支由上季度指引的600亿-650亿美元上调至640亿-720亿美元ღ★◈。市场此前在DeepSeek出圈后认为算力可能加速通缩ღ★◈,资本开支可能会趋缓ღ★◈,但从北美云厂商的最新指引来看ღ★◈,投资依然强劲ღ★◈,反映出北美算力行业景气度依旧很高ღ★◈。
国内CSP厂商季度间资本开支略有波动ღ★◈,但保持较高投资强度ღ★◈。2025Q1ღ★◈,阿里的资本开支为239.93亿元(Purchase of property and equipment)ღ★◈,同比增长136%ღ★◈。相较于此前年报时的指引ღ★◈,2025Q1资本开支或低于投资者预期ღ★◈,预计与GPU芯片采购发货节奏有关ღ★◈;腾讯的资本开支为275亿元ღ★◈,同比增长91%ღ★◈,占营收比为15%ღ★◈,落在此前“low teens”指引区间ღ★◈。当前仍处于AI基础设施的投资期ღ★◈,尽管季度间资本开支或许有波动ღ★◈,但整体仍保持较高的投资强度ღ★◈,反映出国内算力投资需求也保持较高景气度ღ★◈。
随着大模型应用的普及和用户互动频率的增加ღ★◈,LLM的Token使用量正在以惊人的速度增长ღ★◈。在近期举行的2025年Google I/O开发者大会上ღ★◈,谷歌表示目前系统每月处理的token数量激增ღ★◈,从去年的9.7万亿增加到现在的480万亿ღ★◈,增长将近50倍ღ★◈。目前ღ★◈,Gemini的App上每月有4 亿多活跃用户ღ★◈。近期在字节跳动旗下火山引擎举办 Force 原动力大会上ღ★◈,公司宣布ღ★◈,截至2025年5月底ღ★◈,豆包大模型日均tokens使用量超过16.4万亿ღ★◈,较去年5月刚发布时增长137倍ღ★◈。Agent在解决复杂问题的过程中ღ★◈,会进行多轮对话或内部思考ღ★◈,每一轮的对话中都会产生大量的tokenღ★◈。随着Agent在各种应用场景的快速普及ღ★◈,token数量还有望快速增长ღ★◈。
但市场对于当下AI发展的短期情况存在一定的担忧ღ★◈。自从2023年OpenAI的ChatGPT引爆了算力需求之后ღ★◈,CSP厂商的capex高速增长已有3年ღ★◈,但是AI相关的爆款应用迟迟没有出现ღ★◈,在无法商业闭环情况下ღ★◈,实际上也存在资本开支放缓可能ღ★◈。但是从长期发展的维度看ღ★◈,AI仍然会是整个科技行业最大的发展方向之一ღ★◈。总体来看ღ★◈,我们认为应先抱以乐观态度ღ★◈,但紧盯微观层面的订单变化ღ★◈,及时调整ღ★◈。因此ღ★◈,从投资的角度来看ღ★◈,我们认为应该重点锚定行业景气度变化和估值水平进行投资ღ★◈,海外产业链更看重景气度变化ღ★◈,估值水平在一定条件下可以提供安全边际ღ★◈,而国内算力产业链短期内则更需要重视业绩的兑现情况ღ★◈。
从2023年OpenAI的ChatGPT横空出世以来ღ★◈,人工智能带动的需求持续高速增长ღ★◈。CSP厂商的capex保持快速增长势头ღ★◈,GPUღ★◈、ASICღ★◈、HBMღ★◈、交换机ღ★◈、光模块ღ★◈、铜缆等需求旺盛ღ★◈。
北美四大云厂商一季度资本开支持续高增ღ★◈,总计773亿美元ღ★◈,同比增长62%ღ★◈。其中ღ★◈,2025Q1亚马逊的capex为250亿美元ღ★◈,同比增长68%ღ★◈,微软的capex为214亿美元ღ★◈,同比增长53%ღ★◈,谷歌的capex为172亿美元ღ★◈,同比增长43%ღ★◈,Meta的capex为137亿美元ღ★◈,同比增长104%ღ★◈。四家云厂商对于2025年资本开支的指引保持乐观ღ★◈,谷歌ღ★◈、亚马逊ღ★◈、微软表示年初资本开支指引保持不变ღ★◈,Meta将全年资本开支由上季度指引的600亿-650亿美元上调至640亿-720亿美元ღ★◈。高带宽ღ★◈、高质量以及高可靠性的互联网络能够确保算力集群处于高效率的运行状态ღ★◈。人工智能数据中心建设景气度高ღ★◈,给光模块产业链带来广阔的空间ღ★◈,国内主要光模块公司的业绩持续增长小猪视频草莓视频之类的ღ★◈。
展望明年ღ★◈,预计800G光模块需求仍然强劲ღ★◈,1.6T光模块有望快速放量ღ★◈。在AI数据中心中ღ★◈,越来越多的客户倾向于选择更大带宽的网络硬件ღ★◈。带宽越大ღ★◈,单位bit传输的成本更低ღ★◈、功耗更低及尺寸更小ღ★◈。800G光模块的高增速已经能够反映出AI对于带宽迫切的需求ღ★◈,其在2022年底开始小批量ღ★◈,2023年和2024年的出货量都大幅增长ღ★◈。而AI对于带宽的需求是没有极限的ღ★◈,得益于网络较高的性价比ღ★◈,1.6T光模块有望加速应用ღ★◈。NVIDIA正在通过ConnectX-8 SuperNIC 升级网络平台架构ღ★◈,ConnectX-8是业内首款集成PCIe 6.0交换机和高速网络的网卡ღ★◈,专为现代 AI 基础架构设计ღ★◈,可提供更高的吞吐量ღ★◈,同时简化系统设计ღ★◈,并提高能效和成本效益ღ★◈。
CPOღ★◈,Co-packaged Opticsღ★◈,即共封装光学技术ღ★◈,是将光芯片/器件与电芯片/器件合封在一起的封装技术ღ★◈。CPO的封装一般指两方面ღ★◈:一是光引擎(OE)中PIC和EIC的封装ღ★◈,二是光引擎和ASIC/XPU/GPU的系统级封装ღ★◈。共封装光学技术的优点包括降低功耗ღ★◈、降低成本和减小尺寸ღ★◈。降低功耗ღ★◈:信号传输的电路距离大大缩短ღ★◈,电信号损耗降低ღ★◈,简化后的SerDes去掉CDRღ★◈、DFEღ★◈、FFE和CTLE之后功耗降低ღ★◈,可节省30%+的功耗ღ★◈;降低成本ღ★◈:封装工艺成本更低ღ★◈,高集成度的光引擎成本更低ღ★◈,同时省去部分电学芯片成本ღ★◈,可降低25%+的成本ღ★◈;减小尺寸ღ★◈:借助硅光技术和CMOS工艺ღ★◈,共封装显著减小光电引擎各自独立封装方式的尺寸ღ★◈,同时实现更高密度的I/O集成ღ★◈。
Scale-up是指通过增加单个节点的资源来提升整个集群的算力ღ★◈。常见的单个节点是八卡服务器ღ★◈,随着大模型参数量大幅提升ღ★◈,英伟达先后推出了GH200 NVL32和GB200 NVL72等机架类产品ღ★◈,得益于高速的NVLink互连带宽ღ★◈,整个机架可类比为“One Giant GPU”ღ★◈,未来scale-up domain有望提升到千卡及万卡级别ღ★◈。2023年ღ★◈,英伟达宣布生成式AI引擎NVIDIA DGX GH200现已投入量产ღ★◈。GH200通过NVLink 4.0的900GB/s超大网络带宽能力来提升算力ღ★◈,服务器内部可能采用铜线方案ღ★◈,但服务器之间可能采用光纤连接ღ★◈。相比较传统的IB/Ethernet的网络ღ★◈,GH200采用的NVLink-Network网络部分的成本占比大幅增长ღ★◈,但是因为网络在数据中心中的成本占比较低ღ★◈,因此通过提升网络性能来提升算力性价比很高ღ★◈。
CPO技术是系统性工程ღ★◈,涉及到材料ღ★◈、器件ღ★◈、EDAღ★◈、模块ღ★◈、设备等ღ★◈,对设计ღ★◈、封装和测试的要求非常高ღ★◈,因此目前产业中的现状主要是科技巨头在主导ღ★◈,产业链中的供应商配合ღ★◈。CPO/OIO中主要组成部分是CPO光引擎ღ★◈,采用的主要是硅光技术ღ★◈,因此两者的供应链也高度重合ღ★◈。参与到CPO/OIO研发的厂商主要是FAUღ★◈、MPOღ★◈、CW laserღ★◈、光引擎ღ★◈、封装ღ★◈、流片厂ღ★◈、PCB厂商等ღ★◈,我们认为在各个细分领域具备较强优势的厂商ღ★◈,同样在CPO/OIO领域有望延续该领先优势ღ★◈。光引擎是核心产品ღ★◈,虽然目前主要是英伟达和博通等公司在主导ღ★◈,但是考虑到光引擎与光模块的设计ღ★◈、制造和测试环节高度相似ღ★◈,我们认为光模块公司仍然具备较大的优势ღ★◈。FAUღ★◈、MPO和Fiber Shuffle等光纤连接器产品ღ★◈,在CPO/OIO产品上的价值量有望显著提升ღ★◈。CW DFB laser是重要的光源产品ღ★◈,在FR等波分复用的方案中ღ★◈,边缘波长的激光器难度较大ღ★◈,价值量也较高ღ★◈。
我们认为ღ★◈,算力板块目前的景气度依然较高ღ★◈,虽然市场对未来的预期存在分歧ღ★◈,但从Token的增长情况来看ღ★◈,中长期展望依然乐观就估值而言ღ★◈,我们认为既然市场对未来有分歧ღ★◈,那就对未来的盈利预测也会有分歧ღ★◈,所以未来的估值一定程度上就不具有很强的参考意义ღ★◈。对此ღ★◈,我们认为可以参考历史ღ★◈。复盘2019-2020年ღ★◈,5Gღ★◈、云计算叠加疫情带来的在线经济需求ღ★◈,也让光模块板块大涨ღ★◈,之后进入了约2年半的市场震荡寻底阶段ღ★◈。
2025年4月ღ★◈,华为在云生态大会上推出CloudMatrix 384超节点ღ★◈,并宣布已在芜湖数据中心规模上线ღ★◈。据介绍ღ★◈,华为昇腾超节点凭借高速总线互联技术实现重大突破ღ★◈,把总线从服务器内部ღ★◈,扩展到整机柜ღ★◈、甚至跨机柜ღ★◈。在超节点范围内ღ★◈,用高速总线互联替代传统以太网ღ★◈。根据SemiAnalysis的对比分析ღ★◈,华为昇腾910C的单卡算力约为GB200的0.3Xღ★◈、HBM容量约为GB200的0.7Xღ★◈,但是在组成集群后ღ★◈,CloudMatrix 384算力约为NVL72的1.7Xღ★◈、HBM容量约为NVL72的3.6Xღ★◈。不足之处则是CloudMatrix 384能耗更高ღ★◈,系统总功耗是NVL72的3.9Xღ★◈,每FLOP功耗是NVL72的2.3Xღ★◈。正如任正非近期接受人民日报时所说ღ★◈,中国芯片产业可通过“叠加与集群”技术路径实现突围ღ★◈,在计算结果上与全球最先进水平相当ღ★◈。
英伟达NVLink与华为HCCSღ★◈,两大厂商均希望打造自己的高速互联生态ღ★◈。自2014年开始ღ★◈,英伟达在其GPU中引入了NVLink互联技术ღ★◈。NVLink是由英伟达开发的一种高带宽ღ★◈、低延迟的点对点数据传输通道ღ★◈。它的主要用途是连接GPUღ★◈,或者GPU与CPU之间的通信ღ★◈。经历了近十年的迭代ღ★◈,从NVLink1.0到5.0ღ★◈,GPU上的NVLink链路数从4条变为18条ღ★◈,随着serdes速率增长以及调制方式从NRZ升级为PAM4ღ★◈,单通道带宽从5GB/s升级至50GB/sღ★◈,GPU之间通信的双向带宽达到了1800GB/sღ★◈。华为HCCS对标英伟达的NVLinkღ★◈,能够给内核ღ★◈、设备ღ★◈、集群提供系统内存的一致访问ღ★◈,HCCS采用对等拓扑ღ★◈,单链路的最大带宽是56GB/sღ★◈,昇腾910B中的HCCS采用点对点拓扑ღ★◈,单链路的最大带宽是56GB/sღ★◈,聚合带宽392GB/Sღ★◈。高速的互联带宽对于模型的分布式训练至关重要ღ★◈,也成为英伟达与华为的核心竞争力之一ღ★◈。
英伟达和华为作为同时拥有GPU与交换芯片设计能力的公司ღ★◈,既懂网络也懂计算ღ★◈,打造一套属于自己的互联生态顺理成章小猪视频草莓视频之类的ღ★◈。但对于其它GPU与网络设备厂商则并非如此ღ★◈,为了与NVlink竞争ღ★◈,UECღ★◈、UALink等组织相继成立ღ★◈,旨在打造一个开放的高性能计算网络生态ღ★◈。对于阿里ღ★◈、腾讯这样的互联网厂商ღ★◈,他们希望自己定义计算集群架构ღ★◈,而不是成套的购买设备厂商的训练集群ღ★◈,例如腾讯发布自己的星脉网络架构ღ★◈,阿里也着手自研交换机ღ★◈,因此开放的互联生态同样需要重视ღ★◈。
UALink1.0规范发布ღ★◈:支持连接1024个加速器ღ★◈,每通道200GT/s带宽ღ★◈。UALink(UltraAcceleratorLink)由AMDღ★◈、AWSღ★◈、AsteraLabsღ★◈、思科ღ★◈、谷歌ღ★◈、HPEღ★◈、英特尔ღ★◈、Meta和微软9家企业发起成立ღ★◈,旨在为AIPod和集群中加速器与交换机之间的纵向扩展通信定义一种高速ღ★◈、低延迟的互联规范ღ★◈,挑战英伟达NVLink等互联在该场景的领导地位ღ★◈。2025年4月ღ★◈,UALink1.0发布ღ★◈,支持每通道200GT/s的最大双向数据速率ღ★◈,信号传输速率为212.5GT/sღ★◈,以适应前向纠错和编码开销ღ★◈。UALink可配置为x1ღ★◈、x2或x4ღ★◈,四通道链路在发送和接收方向上均可实现高达800GT/s的速度ღ★◈。从标准发布到实际应用ღ★◈,还需要协调众多厂商配合ღ★◈,因此开放的互联协议能够真正在组网中应用预计还需要一至两年ღ★◈。我们认为ღ★◈,对于网络与交换环节建议重点关注交换芯片ღ★◈、网卡等公司ღ★◈。
GB200服务器进入规模化量产阶段ღ★◈,Blackwell将接替Hopper成为出货主力ღ★◈。在GTC 2024大会上ღ★◈,英伟达正式发布了新一代Blackwell架构AI芯片ღ★◈,并推出了基于该架构的新型机架式AI服务器参考设计GB200ღ★◈。由于散热挑战与液冷系统泄漏等问题ღ★◈,GB200系统在2024年量产推进并不顺利ღ★◈,整体进度滞后于预期ღ★◈。随着英伟达与供应链合作逐步优化设计ღ★◈,并解决关键技术难题ღ★◈,24年底Blackwell平台开始进入爬坡阶段ღ★◈,开启对Hopper平台的替代ღ★◈。英伟达FY26Q1(2025年2月-4月)数据中心业务中近70%的收入已由Blackwell平台贡献ღ★◈。鸿海ღ★◈、广达等核心ODM供应商也普遍预计ღ★◈,GB200将在2025Q2加速放量ღ★◈,微软ღ★◈、Meta等多家云服务厂商也陆续部署新一代系统ღ★◈。
升级方案GB300有望于2025年下半年开启量产ღ★◈。英伟达在GTC 2025大会上披露ღ★◈,预计GB300将于2025年下半年量产上市ღ★◈。硬件方面ღ★◈,GB300采用12-Hi堆叠的HBM3e内存结构ღ★◈,每颗GPU配备288 GB显存ღ★◈,较GB200的192 GB提升50%ღ★◈。系统I/O也全面升级ღ★◈,整机网络带宽提升至1.6 Tbpsღ★◈,以满足更高并发推理的通信需求ღ★◈。在性能表现上ღ★◈,GB300 NVL72在FP4精度下的推理算力相较GB200 NVL72提升约1.5倍ღ★◈。为确保量产进度ღ★◈,英伟达此次在设计上回归稳定的Bianca板卡方案ღ★◈,并优化了液冷系统与供电模块ღ★◈。GB300将成为继GB200之后ღ★◈,又一轮AI服务器放量的关键驱动ღ★◈。
自研ASIC芯片不仅能够降低功耗ღ★◈,还能帮助CSP掌握AI基础设施的成本与供应链ღ★◈,避免过度依赖英伟达ღ★◈,因此自研ASIC正成为CSP的竞争关键ღ★◈。谷歌曾独占ASIC AI芯片市场ღ★◈,目前AWSღ★◈、Metaღ★◈、微软等企业也开始积极投入ASIC AI芯片开发ღ★◈。AWS的ASIC AI芯片Trainium 2在2024Q4开始量产ღ★◈,搭载该芯片的服务器则在2025Q1开始规模化出货ღ★◈,纬颖作为AWS ASIC服务器的核心供应商ღ★◈,营收大幅受益ღ★◈。AWS下一代Trainium 3晶片则预计在2025年底之前量产ღ★◈。
制程迭代是芯片算力提升的关键因素ღ★◈,AI算力需求的爆发催生了对先进制程的强需求ღ★◈。AI大模型发展对芯片算力提出更高要求ღ★◈,未来更成熟的AGI模型所需算力是现在GPT-4所需算力的1万倍ღ★◈。而解决高算力需求的一种方案是采用更为先进制程的芯片ღ★◈,因为芯片制程越先进ღ★◈,功耗越低ღ★◈、计算速度越快ღ★◈。如2nm芯片功耗约为16nm芯片的10%ღ★◈,而性能约为16nm芯片的2倍以上ღ★◈。台积电估计其即将推出的N2P节点的功耗可能比N3E节点低30-40%ღ★◈。
服务器需求将超过智能手机成为先进制程最主要的驱动力ღ★◈。历史上ღ★◈,智能手机的迭代更新推动了芯片制程的不断演进ღ★◈,但随着AI应用的计算需求上升ღ★◈,服务器成为主要的算力中心ღ★◈,且对高算力的追求使得其对先进制程呈现出越来越高的需求ღ★◈,AI芯片功耗较高ღ★◈,且需要更小的尺寸ღ★◈,因此AI芯片对先进制程的迫切需求将推动服务器需求成为先进制程最大的驱动力ღ★◈。Sumco估计ღ★◈,在AI服务器出货量强劲增长的推动下ღ★◈,服务器对先进制程晶圆的需求量最快将在2024年超过智能手机ღ★◈。
2025年是2nm量产交付元年ღ★◈,台积电已获得多家客户订单ღ★◈。台积电ღ★◈、三星ღ★◈、Intel均有望在2025年量产2nm制程ღ★◈,但目前Intel和三星主要用于生产自有产品ღ★◈,并未获得第三方客户的量产订单ღ★◈。Intel的18A将生产Panther Lake (PC CPU)和Clearwater Forest (服务器CPU)ღ★◈,三星的SF2可能将获得自研处理器Exynos 2600的订单ღ★◈。台积电的2nm已获得多家客户订单ღ★◈,包括AMD的Venice(服务器CPU)ღ★◈,苹果的A20/A20 Pro和M6系列ღ★◈,高通第三代8 Eliteღ★◈。此外ღ★◈,AWSღ★◈、谷歌ღ★◈、微软未来的ASIC AI芯片在2nm节点上都大概率选择台积电ღ★◈。
先进制程面临物理约束瓶颈ღ★◈,先进封装成为提高芯片性能的重要解决方案ღ★◈。AI大发展使得算力需求爆发式增长ღ★◈,然而ღ★◈,随着半导体工艺尺寸进一步缩小ღ★◈,集成电路制造面临的挑战日益增大ღ★◈,摩尔定律日趋放缓ღ★◈,单位晶体管的成本不降反升ღ★◈,应用先进制程的芯片研发费用也大幅增长ღ★◈。先进封装通过异构集成ღ★◈,将多个芯粒(Chiplets)高密度连接在一起ღ★◈,整体性能提升不再依赖单一芯片支持ღ★◈,且大幅提升良率ღ★◈,降低成本ღ★◈,成为提供系统级性能提升的新路径ღ★◈。
CoWoS为HPC和AI计算领域广泛使用的先进封装技术ღ★◈。CoWoS是台积电推出的 2.5D封装技术ღ★◈,本质上是将多个芯片(如逻辑芯片+HBM)放置在一块硅中介层(interposer)上ღ★◈,再封装在基板上ღ★◈,2012年首先应用于Xilinx的FPGA上ღ★◈。此后ღ★◈,英伟达ღ★◈、AMDღ★◈、谷歌等厂商的AI芯片均采用了CoWoSღ★◈,例如A100ღ★◈、H100ღ★◈。如今CoWoS已成为HPC和AI计算领域广泛应用的2.5D封装技术ღ★◈,绝大多数使用HBM的高性能芯片ღ★◈,包括大部分创企的AI训练芯片都应用CoWoS技术ღ★◈。
AI持续高景气带动CoWoS需求不断提升ღ★◈。2023年一季度以来ღ★◈,AI服务器的需求不断增长ღ★◈,使台积电CoWoS封装产能紧缺ღ★◈。台积电一方面将制程分段委外ღ★◈,另一方面大幅扩产CoWoS产能ღ★◈。
HBM 3D堆叠提升内存性能ღ★◈,AI芯片广泛采用ღ★◈。随着数据的爆炸式增长ღ★◈,内存墙对于计算速度的影响愈发显现ღ★◈。为了减小内存墙的影响ღ★◈,提升内存带宽一直是存储芯片聚焦的关键问题ღ★◈。如同闪存从2D NAND向3D NAND发展一样ღ★◈,DRAM也正在从2D向3D技术发展ღ★◈,HBM为主要代表产品ღ★◈。与传统DRAM不同ღ★◈,HBM是3D结构ღ★◈,它使用TSV技术将数个DRAM裸片堆叠起来ღ★◈,形成立方体结构ღ★◈,与传统内存相比ღ★◈,HBM的存储密度更大ღ★◈、带宽更高ღ★◈,基本成为数据中心AI芯片的标配ღ★◈。
预计2028年全球先进封装市场规模增至786亿美元ღ★◈,2022-2028年CAGR达到10.0%ღ★◈。根据Yole数据ღ★◈,2022年全球封装市场中ღ★◈,先进封装占比已达到47%ღ★◈。预计到2028年ღ★◈,先进封装市场占比将增至58%ღ★◈,规模约为786亿美元ღ★◈,2022年-2028年CAGR约为10.0%ღ★◈,明显高于传统封装市场的2.1%和市场整体的6.2%ღ★◈。
晶圆代工龙头台积电打造先进封装工艺标杆ღ★◈,传统封测厂商亦纷纷加快转型步伐ღ★◈。台积电在先进封装上已取得了可观的收入体量ღ★◈,技术布局也进入关键节点ღ★◈,未来投入规模将持续加码ღ★◈。在OSAT厂商中ღ★◈,日月光VIPack先进封装平台包含六大核心技术ღ★◈,安靠推出FCMCM(倒装多晶片模组)ღ★◈、2.5D(TSV)等五大先进封装解决方案ღ★◈。国内长电先进聚焦bumpingღ★◈,Fan-out CSP晶圆级等先进封装ღ★◈,通富微电在2.5D/3D先进封装保持国内领先ღ★◈,深科技专注存储封测领域ღ★◈,并聚焦倒装工艺(Flip-chip)ღ★◈、POPt堆叠封装技术的研发ღ★◈。
全球HBM(高带宽存储器)技术呈现“海外领跑ღ★◈、国内加速追赶”的双轨格局ღ★◈。海外市场由SK海力士ღ★◈、三星ღ★◈、美光三大巨头垄断95%以上份额ღ★◈:SK海力士凭借HBM3/3E量产优势稳居首位(市占率52.5%)ღ★◈,其12层堆叠HBM4测试良率已突破70%ღ★◈,计划2025年量产ღ★◈;三星正加速优化HBM3E良率并推进HBM4研发ღ★◈,2024年通过AMD MI300系列验证后逐步放量ღ★◈;美光则聚焦HBM3e量产ღ★◈,但产能扩张略有滞后ღ★◈。国内HBM产业受地缘政策催化进入提速阶段ღ★◈。
从HBM的生产工艺来看ღ★◈,DRAM颗粒为定制的DRAM颗粒ღ★◈,工艺难点在于封测ღ★◈。TSVღ★◈、大规模回流模塑底部填充(MR-MUF)ღ★◈、自对准ღ★◈、混合键合等工艺很大程度上影响HBM的性能和良率ღ★◈。
(1)TSVღ★◈:不采用传统的布线方法来连接芯片与芯片ღ★◈,而是通过在芯片上钻孔并填充金属等导电材料以容纳电极来垂直连接芯片ღ★◈。制作带有TSV的晶圆后ღ★◈,通过封装在其顶部和底部形成微凸块(Micro Bumping)ღ★◈,然后连接这些凸块ღ★◈。由于TSV允许凸块垂直连接ღ★◈,因此可以实现多芯片堆叠ღ★◈。最初ღ★◈,使用TSV接合的堆栈有4层ღ★◈,后来增加到8层ღ★◈。最近ღ★◈,一项技术使得堆叠12层成为可能ღ★◈,SK海力士于2023年4月开发了其12层HBM3ღ★◈。虽然TSV倒装芯片接合方法通常使用基于热压的非导电薄膜(TC-NCF)ღ★◈,但SK海力士使用MR-MUF工艺ღ★◈,可以减少堆叠压力并实现自对准ღ★◈。这些特性使SK海力士能够开发出世界上第一个12层HBM3ღ★◈。
(2)MR-MUFღ★◈:将半导体芯片堆叠起来ღ★◈,并将液体保护材料注入芯片之间的空间ღ★◈,然后硬化以保护芯片和周围电路的工艺ღ★◈。与在每个芯片堆叠后应用薄膜型材料相比ღ★◈,MR-MUF是一种更高效的工艺ღ★◈,并提供有效的散热ღ★◈。目前SK海力士主要使用MR-MUF工艺生产HBM2e/3/3eღ★◈,使得其领先于三星电子和美光ღ★◈,后者主要采用TC-NCF工艺ღ★◈。MR-MUF工艺需要使用液态环氧树脂(EMC)ღ★◈,目前全球仅日本namics独供ღ★◈。除EMC外美高梅国际娱乐app下载安装ღ★◈。ღ★◈,HBM封装还需要底部填充胶用于FC工艺ღ★◈,采用PSPI作为硅中介层中RDL的再钝化层ღ★◈,还需要IC载板ღ★◈、DAFღ★◈、Solder ball等材料ღ★◈。
(3)自对准ღ★◈:在 MR-MUF工艺期间通过大规模回流将芯片重新定位到正确的位置ღ★◈。在此过程中ღ★◈,热量被施加到芯片上ღ★◈,导致相关凸块在正确的位置熔化并硬化ღ★◈。
(4)混合键合ღ★◈:C2W混合键合具有多种优势ღ★◈,①允许无焊料键合ღ★◈,减少键合层的厚度ღ★◈、缩短电气路径并降低电阻ღ★◈。因此ღ★◈,小芯片可以高速运行ღ★◈,就像单个芯片一样ღ★◈。②通过直接将铜与铜接合ღ★◈,可以显着减小凸块上的间距ღ★◈。目前ღ★◈,使用焊料时很难实现10 um或更小的凸块间距ღ★◈。然而ღ★◈,铜对铜直接键合可以将间距减小到小于1umღ★◈,从而提高芯片设计的灵活性ღ★◈。③先进的散热功能ღ★◈。④上述的薄粘合层和细间距影响了封装的形状因数ღ★◈,可以大大减小封装尺寸ღ★◈。目前混合键合主要用于单层键合或两个芯片面对面堆叠ღ★◈,SK海力士2022年用混合键合完成了8层HBM2e的堆叠ღ★◈,正在开发用于更高密度ღ★◈、高堆叠HBM的混合键合ღ★◈。
需求紧俏ღ★◈,HBM持续挤压DRAM产能ღ★◈。从需求端看ღ★◈,云计算厂商将更多资本开支投入AI基础设施ღ★◈,2024年北美CSP的资本开支增速在55%ღ★◈,主要来自AI推动ღ★◈,传统服务器需求基本持平ღ★◈,25Q1同比增长64%ღ★◈,预计2025年CSP资本开支维持大幅增长ღ★◈。算力需求的快速增长ღ★◈,算力卡的数量和配置快速升级ღ★◈,最终带来的是算力芯片和HBM需求的快速增长ღ★◈。结合海外存储厂商和咨询机构的预测ღ★◈, 2024年HBM市场规模达到160亿美金ღ★◈,同比增长300%ღ★◈,预计2025年达到320亿美金ღ★◈,同比增长100%ღ★◈。从供给端看ღ★◈,HBM供应仍然紧缺ღ★◈,在传统DRAM库存波动的情况下ღ★◈,HBM由于AI服务器的强劲需求ღ★◈,挤占DRAM产能的现象还在持续ღ★◈。
HBM快速迭代ღ★◈,HBM4即将进入量产ღ★◈。结构上ღ★◈,2025年HBM3e将占据主导ღ★◈,根据SK海力士美高梅游戏官方网址ღ★◈,2024年其HBM3e收入将占HBM收入一半以上ღ★◈,2025年12层HBM3e供给量将超过8层产品ღ★◈,12层HBM4计划于25H2发货ღ★◈。(1)HBM3eღ★◈:三大原厂相继推出12Hi产品ღ★◈,这些12Hi的HBM预计用在英伟达的B300A(B200A Ultra)和B300上ღ★◈。(2)HBM4ღ★◈:三星ღ★◈、海力士计划24Q4开始HBM4的流片ღ★◈,预计2026年用在英伟达下一代的Rubin芯片上ღ★◈。
推理时代即将到来ღ★◈,推理将成为AI算力需求的新动力ღ★◈。英伟达首席执行官黄仁勋在2025年GTC的主题演讲中提到ღ★◈,随着AI行业在模型训练上的需求放缓ღ★◈,叠加DeepSeek在模型推理上所作的创新ღ★◈,AI推理时代即将到来ღ★◈。相较于传统的生成式AI主要以语言大模型与聊天机器人的形式呈现ღ★◈、聚焦生成文本和图像内容等ღ★◈,AI Agent能理解任务ღ★◈、进行复杂推理ღ★◈、制定计划并自主执行多步骤操作ღ★◈,由于AI Agent解决复杂问题ღ★◈、分解任务每一步的逻辑思考过程都需要用到模型推理ღ★◈,因此推理将成为AI新阶段的核心动力ღ★◈。
低成本是AI推理爆发的必要条件ღ★◈,北美CSP厂商均加速研发ASIC的步伐ღ★◈。大模型推理时代相较于移动互联网时代ღ★◈,底层逻辑发生了巨大变化ღ★◈。推理系统的成本几乎和客户使用量成线性关系ღ★◈,因此边际成本很高ღ★◈,且成本绝大部分是推理的算力消耗ღ★◈。因此ღ★◈,在大模型时代ღ★◈,能将推理成本降到极致的厂商有望获得最终的胜利ღ★◈。目前北美四大CSP厂商ღ★◈,除了继续采用英伟达GPU做模型训练之外ღ★◈,均在加速开发自家的ASIC产品ღ★◈,一方面因英伟达的GPU价格昂贵ღ★◈,硬件投入成本过高ღ★◈,另一方面ღ★◈,自研ASIC可针对特定需求进行优化ღ★◈,也能针对特定的应用进行设计ღ★◈,因此对于能耗或电力管理的控制将更加精准美高梅游戏手机版官网版下载ღ★◈,ღ★◈,此外ღ★◈,从供应链安全角度ღ★◈,也可以避免算力资源都来自英伟达ღ★◈、AMD等GPU厂商的风险ღ★◈。在同等预算下ღ★◈,AWS的Trainium 2可以比英伟达的H100 GPU更快速完成推理任务ღ★◈,且性价比提高了30%~40%ღ★◈。2025年底计划推出的Trainium3ღ★◈,其计算性能更是提高了2倍ღ★◈,能效有望提高40%ღ★◈。谷歌的TPU v5芯片在Llama-3推理场景中ღ★◈,单位算力成本较H100降低了70%ღ★◈。根据IDC数据ღ★◈,微软Azure自研ASIC后ღ★◈,硬件采购成本占比从75%降至58%ღ★◈,摆脱长期被动的议价困境ღ★◈。
在Google Cloud Next 25大会上ღ★◈,谷歌又推出了第七代张量处理单元(TPU v7)Ironwoodღ★◈,它是谷歌迄今为止性能最高ღ★◈、可扩展性最强的定制ASIC芯片ღ★◈,也是首款专为推理而设计的加速器ღ★◈。Ironwood的每瓦性能是谷歌去年发布的第六代TPU Trillium的两倍ღ★◈,HBM容量及双向带宽均大幅提升ღ★◈。谷歌ASIC服务器计算板上有四个Ironwood TPUღ★◈,这个与之前TPU v5计算板架构一样ღ★◈。
博通和Marvell均看好ASIC市场需求ღ★◈。博通和Marvell是ASIC定制领域的主要玩家ღ★◈,二者在AI定制芯片中占据了超70%的市场份额ღ★◈。博通定制的ASIC芯片广泛应用于数据中心ღ★◈、云计算ღ★◈、高性能计算(HPC)ღ★◈、5G无线基础设施等领域ღ★◈,根据博通最新财报ღ★◈,2025Q1公司AI芯片收入占比50%ღ★◈,同比增长77%ღ★◈,其中ASIC相关收入占比60%ღ★◈。博通认为XPU的需求会持续上涨ღ★◈,公司预计2025年下半年ASIC收入占比会持续上升ღ★◈,主要是因为推理模型需求增长使得AI芯片业务增速加快ღ★◈。Marvell的ASIC业务也成为公司强劲增长的核心动力之一ღ★◈。2024年12月初ღ★◈,Marvell与AWS达成了一项为期五年的战略合作协议ღ★◈,包括帮助亚马逊设计自有AI芯片ღ★◈。伴随AWS芯片的量产ღ★◈,Marvell在2025Q1实现营收18.95亿美元ღ★◈,同比增长63%ღ★◈,创历史新高ღ★◈。Marvell也预测ღ★◈,随着AI计算需求的增长ღ★◈,公司ASIC占比有望提升至25ღ★◈。
MGM·美高梅(中国区)官方网站-Macau App Station|
http://www.coreoptic.com