新闻  |   论坛  |   博客  |   在线研讨会
中电金信 :异构调度+流量治理的双引擎架构实践
中电金信人 | 2025-09-05 15:25:36    阅读:4   发布文章

导语:近日,中电金信受邀参加“第二届CCF分布式计算大会暨中国算力网大会”。本次大会以“算力网:新质生产力背景下的分布式系统”为主题,汇聚逾1300名来自学术界与产业界的专家学者,共同探讨分布式系统与算力网的技术创新与产业实践。在大模型基础设施与架构技术分论坛上,中电金信研究院容器云技术实验室主任王磊发表了《异构资源调度与流量治理在大模型推理中的应用》专题演讲,并分享了相关技术成果。



图片

中电金信研究院

容器云技术实验室主任 王磊








算力困局




异构算力环境下的多重挑战



随着人工智能进入大模型时代,智能算力需求呈现爆发式增长,算力产业规模随之飞速扩张。然而,算力资源高度异构化、调度复杂性激增、模型分布式推理成本高以及AI流量治理难度大等挑战,正制约着算力效能的释放,难以满足低延迟在线服务、高吞吐批处理等场景化需求。因此,构建高效、智能的异构资源管理与调度能力,已成为推动产业升级的关键。


源启算力加速平台是中电金信研发的智能算力管理平台,具备完整的异构算力管理能力,并针对业务需求,进行了大模型推理及AI流量治理的相关研究和产品化工作,建立了全方位的服务监控体系,以保障大模型服务的质量。同时,平台集成多种硬件和软件能力,可提供高性能、高可靠性和高可扩展性的计算资源。通过融合异构算力资源接入、管理、调度与编排,向上为AI负载提供软件服务能力,提高AI应用的研发效率,降低技术门槛,帮助用户实现从底层算力到上层业务的闭环价值输出。


图片

源启算力加速平台产品架构图








技术破壁




从算力适配到全方位的质量保障



中电金信依托异构算力调度、大模型推理优化与智能流量治理三大技术引擎,构建高效AI算力基础设施,实现了推理性能显著提升与资源利用率优化,为行业智能化落地提供坚实支撑。


具体举措包括:通过统一纳管异构算力设备,实现资源池化与硬件拓扑感知,显著提升资源利用效率;在调度层面,通过构建支持分散/紧凑调度、拓扑感知调度和资源超分等智能策略的平台,有效保障AI工作负载的高效分配,并优化了在线推理与离线训练混合部署场景下的资源调度效率;针对大模型推理,通过优化多卡并行策略显著提升推理服务的质量及吞吐量,并基于监控指标实现动态弹性扩缩容,进一步提高了服务稳定性和响应效率。此外,面向LLM推理场景,中电金信提供的AI网关具备访问权限控制、流量路由与负载均衡、模型服务灰度发布等关键功能。



工作负载的资源智能调度


图片


在异构算力场景下,工作负载的资源智能调度至关重要。系统通过分散/紧凑调度、负载均衡、拓扑感知、资源超分、组调度和优先级抢占等机制,在保证服务等级协议(SLA)的前提下,可以最大化算力资源利用率,实现任务高效运行与资源弹性调度。


■ 散与紧凑度

在异构环境中,CPU、GPU、NPU等资源的分配需要灵活调整,从而达到避免资源闲置,又能保证负载均衡的状态。过于分散的资源使用可能会导致性能下降,反之过于紧凑则容易引发资源竞争问题。

■ 负载均衡

负载均衡是指确保将计算任务均匀分配到各计算节点(如CPU和GPU)上,以提升系统的整体性能。不同硬件的性能差异导致任务调度复杂,调度器需要考虑计算能力、内存带宽和延迟等因素,并据此动态调整任务分配,以避免单个节点过载而其他节点闲置,这是实现智能调度的关键。

■ 拓扑感知

在智算的架构设计中,通常具有复杂的通信拓扑(例如NVLink、PCIe和RDMA),调度算法需要能够识别和利用这些拓扑特性,以优化数据传输效率和降低延迟。

■ 资源超分

允许在资源利用率较低的场景下,系统按一定比例超量分配显卡资源,以实现逻辑上的“1张卡给多个任务用”,从而提升硬件利用率。同时,为了保障任务的基本性能不受干扰,系统会通过容器、虚拟化等隔离技术为各任务提供独立的运行环境。

■ 组调度

提供“全有或全无”(All or Nothing)的调度方式。当一个分布式任务需要一组资源时,要么全部满足,要么就暂不调度,这种机制有效避免了分布式任务陷入死锁状态或资源浪费,比如部分任务拿到资源但无法整体运行。

■ 优先级抢占

为了确保关键任务在资源紧张时能够及时启动或稳定运行,系统支持高优先级任务在资源紧张时,主动抢占正在被低优先级任务使用的算力资源。例如,在系统负载高峰期,高优先级的实时推理任务需要低延迟响应,可以临时抢占离线训练任务的GPU资源。



大模型推理的优化方法


大模型推理性能评估主要指标术语解释:

■ TTFT(首Token时延):从发送请求到接收到模型输出的第一个Token所需的时间。该指标通常用于评估模型的响应速度,对在线应用的用户体验至关重要。

■ TPOT(单Token输出时间):模型生成每个输出Token所需的平均时间。该指标反映了模型在生成过程中处理每个Token的效率。

■ ITL(Token间时延):模型连续输出Token之间的平均时间间隔。

■ Throughput(吞吐量):指系统每秒能够处理的Token数量。通常细分为输入吞吐量、输出吞吐量以及总的吞吐量。吞吐量指标与TTFT、TPOT等延迟指标结合使用,能够全面反映系统的整体性能。


图片


首先,通过对大模型推理常用的策略进行介绍,展示了一组测试数据,涵盖单卡以及不同多卡并行模式下的吞吐量、加速比和服务质量表现。通过这些数据,旨在说明以下关键点:


■ 不同模型适配不同并行方式:不同的并行方式对不同特征、规模的模型性能会产生较大差异;

■ 并行策略对性能至关重要:并行策略的选择会显著影响系统的吞吐量与整体性能;

■ 通过策略优化提升效率:可以通过模型特性和硬件条件,逐步调整和优化并行策略,以最大化硬件利用率,从而提高推理性能。


优化大模型推理性能,可参考以下核心思路:


■ 优先采用基础部署模式:从单卡、单机多卡到多副本模式逐步推进,此方案简单可靠,易于扩展;

■ 深度挖掘硬件潜力:充分利用底层硬件加速能力,包括网络拓扑感知、NUMA亲和性优化等;

■ 逐步调优推理框架参数:根据模型大小、算力资源和并行策略,逐步尝试对推理框架参数进行调优;

■ 实施实时监控与动态调整:强化推理过程的实时监控,及时识别潜在瓶颈,并据此动态调整并行策略与资源配置。


其次,在实际智能体应用中,用户常常会发送类似或相同的请求——例如在聊天机器人、问答系统和内容生成系统中,许多用户可能会询问相似的问题或使用相似的Prompt。这种重复性请求不仅增加了计算开销,还可能导致资源浪费。为了应对这一挑战,LMCache技术应运而生。它本质上是一种KV Cache卸载和共享机制,其核心原理正是利用请求间的相似性来提升推理效率。LMCache通过缓存可重用文本的键值数据,优化了推理过程,从而提高了整体效率并降低了GPU使用率。最终,LMCache帮助系统在满足一定吞吐量的同时,有效提升资源利用率,并降低运营成本。


图片


从上面的测试结果来看,LMCache的性能表现与请求特征密切相关:对于重复的Prompt请求,由于键值缓存匹配度较高,在TTFT上有较大的性能提升,同时TPOT也有所缩短。然而在请求离散的情况下,大部分键值缓存失效,此时TTFT和TPOT反而会出现一定程度的性能损耗。因此,在处理离散请求时,启用跨层缓存技术可能会产生负面影响,建议用户可以根据自身业务特征来选择是否使用该功能。


图片


最后,我们再来看一下PD分离技术如何实现推理加速。如前所述,大模型推理并不是简单地追求更高的吞吐量,而是在保证推理质量(如TTFT和TPOT)的前提下,实现更高的吞吐量。PD分离技术正是为了优化这一过程而设计的,通过将推理过程拆分为Prefill阶段和Decode阶段:


■ Prefill阶段:负责处理完整的输入上下文(Prompt)。此阶段计算量大、显存占用高,但并行度高,适合批量计算;

■ Decode阶段:负责逐步生成输出Token。此阶段计算量较小、显存压力低,但串行性强,容易成为吞吐瓶颈。


通过PD分离,可以实现每个阶段的独立优化,这与从单体架构转向微服务架构的过程类似。因此,相较于传统的PD一体化架构,PD分离具备微服务架构特有的优势与挑战。此外,PD分离还允许在不同硬件上部署模型的各个部分,从而充分发挥各类硬件的性能优势。这种灵活性不仅提升了整体吞吐量,还降低了GPU的使用率,从而降低了运营成本。


如图所示(上图右下角测试数据),PD分离技术在实践中确实可以显著降低ITL,提升模型的响应速度,在保持推理质量的前提下,能够更快速地生成输出。对于异构算力资源下,PD分离允许在不同硬件上灵活部署模型的各个部分,从而使每个阶段都能充分利用特定硬件的性能优势。



大模型服务的流量治理


图片


随着大模型服务的快速发展,流量治理变得尤为重要。面对高并发、高吞吐的请求压力,需要一个专门针对大语言模型推理场景的AI网关,以便优化流量管理,提高服务的稳定性与可用性。


■ 流量管理与路由

AI网关将不同模型服务地址统一抽象为一个简洁入口,极大简化了用户的接入流程。系统能根据请求中的模型名称(model)自动将其路由到相应的后端模型,并提供灵活的切换和管理能力。业务方无需感知后端模型的变化,有效降低了服务集成的复杂性。同时,网关支持外部大模型服务接入,从而实现统一的模型管理与流量治理。


此外,网关支持按Prompt长度进行智能路由:对于短问题或快速问答类请求,系统会自动分配到低算力推理服务,降低算力成本;而对于长对话、复杂内容生成或深度分析类请求,则会调度至高算力推理服务,以确保处理性能与响应速度。

■ 安全访问控制

通过API Key进行访问控制,确保只有经过授权的客户端能够调用特定服务,从而提升系统安全性,并基于API Key对流量进行统一的监控与控制。

■ 调度与扩展

根据请求队列长度、KV Cache使用率以及Prefix Cache感知等关键指标,动态调整调度策略,从而确保资源的高效利用。同时,系统支持Serverless模式,可以根据实际请求量实现基于请求的弹性扩缩容,灵活应对流量变化。

■ 流量控制与容错

为保障系统的稳定运行,网关提供了多重防护机制:包括容错重试机制、灰度发布策略和限流功能,能够有效应对流量波动,进一步保障系统稳定性。

■ 监控与统计

提供详细的调用日志和Token使用情况统计,帮助用户分析和优化使用效果。同时,系统支持涵盖网关、分布式框架以及推理引擎等在内的多个层面的流量监控,并能够提供全面的性能分析和实时监控能力。



全方位的质量监控体系


图片


大模型推理场景下的全链路监控体系,涵盖四个方面:

■ 网络带宽监控:NVLink、PCIe、IB/RoCE等高速互联链路;

■ 算力资源监控:GPU、CPU、内存等硬件使用情况;

■ 推理服务质量监控:端到端延迟、请求队列长度、Token吞吐、TTFT、TPOT等关键指标;

■ 服务调用与负载情况:Token统计、TPS、调用次数等。


系统通过算力、资源和服务的全方位实时监控,可清晰洞察网络状况、GPU/CPU利用率、显存占用及推理性能等关键指标状态,及时发现潜在瓶颈并指导调度优化。在大规模模型推理的生产环境中,这种能力能够保障服务稳定、提升资源利用率,并支撑弹性扩缩容和服务等级协议(SLA)管理。


通过异构资源智能调度、大模型推理加速与AI流量治理,中电金信构建了高效的AI算力基础设施,为源启行业AI平台、源启知识图谱平台等上层应用提供了高可靠、低延迟的算力支撑。目前,中电金信形成了以新型数字基础设施“源启”为支撑,“平台+模型+应用+服务”的完整AI产品及能力体系,可实现从底层算力到上层应用的贯通融合,为企业数智化转型提供全面支撑。未来,中电金信将与行业伙伴携手共进,为构建高效、可靠、可扩展的中国算力网络体系持续提供技术支撑,贡献金信力量。


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客