华为云提升算力服务效能支撑人工智能规模应用-重庆日报

华为云提升算力服务效能支撑人工智能规模应用

新重庆-重庆日报精选

2025-08-27 22:28

8月27日，第四届828 B2B企业节开幕式上，华为云宣布其Tokens算力服务完成重要升级，现已全面接入CloudMatrix384超节点架构。此次升级显著提升了服务性能，单芯片处理能力最高可达每秒2400个Token（2400 TPS），响应时间仅为50毫秒（50 ms TPOT），有效支撑了当前快速增长的人工智能应用需求。

数据显示，我国人工智能应用规模呈现高速发展态势。自2024年初至今年6月底，国内日均Token消耗量已从1000亿激增至30万亿，增长幅度超过300倍。这一趋势对算力基础设施的性能、效率及灵活性提出了更高要求。

为应对此需求，华为云于今年3月推出基于模型即服务（MaaS）的Tokens服务。该服务提供在线、进线、离线及尊享版等多种规格，适配不同应用场景的性能与时延要求，为各类大模型及AI智能体提供了更为灵活便捷的算力支持。

本次接入CloudMatrix384超节点是华为云提升服务能力的关键步骤。该超节点采用创新的计算架构设计，突破传统性能瓶颈。通过全栈协同优化——包括昇腾硬件（CANN）的算子与通信优化、弹性内存存储（EMS）突破“内存墙”限制、以及基于xDeepServe分布式推理框架的架构创新——实现了从年初单芯片1920 TPS到2400 TPS的性能跃升。

xDeepServe框架作为CloudMatrix384的原生服务，采用独特的模块化分离设计（Transformerless架构）。该架构将大型模型的核心组件（如注意力机制、前馈网络、专家模块等）解耦为可独立伸缩的微模块，在超节点内不同NPU上并行处理任务。再结合微秒级高性能通信库（XCCL）与自研的FlowServe推理引擎进行高效重组，构建出高吞吐的Token处理“流水线”。FlowServe引擎将超节点划分为自治的计算单元组，确保大规模并发下的高效运行。这些技术创新是单芯片处理能力提升的关键。

在模型支持与优化方面，华为云MaaS平台已深度适配包括DeepSeek、Kimi、通义千问（Qwen）、盘古（Pangu）、SDXL、万知（Wan）等国内主流大模型，以及多种主流智能体开发平台。通过模型量化、算子融合、通算并行等优化技术，华为云在保障模型效果的前提下，显著提升了推理效率。例如，在文生图任务中实现了较行业水平提升2倍的出图速度（支持最高2K分辨率）；在文生视频任务中实现了较行业水平3.5倍的性能提升，并有效降低了延迟与资源占用。这些优化工作使大模型在昇腾云上运行得更快更好。

在应用层面，华为云联合超过100家产业伙伴，聚焦调研分析、内容创作、智慧办公、智能运维等领域，共同开发智能体解决方案，解决实际产业问题。例如，基于该平台开发的“数智员工”解决方案提升了人力资源服务效能，“智慧公文”解决方案助力政企办公智能化转型。

当前，以Token为重要度量的智能应用需求持续高速增长。华为云此次通过全栈技术创新，系统性提升Tokens服务的性能与效率，为我国人工智能产业的规模化应用与发展提供了更坚实的先进算力底座。

来源：新重庆-重庆日报

编辑：张婷审核：王萃主编：王成

凡注明来源重庆日报的作品，版权均属重庆日报所有，未经授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的，应在授权范围内使用，并注明“来源：重庆日报网”。违反上述声明者，本网将追究其相关法律责任。

除来源署名为重庆日报稿件外，其他所转载内容之原创性、真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考并自行核实。