Collector: Hızlı ve Tarafsız Haber

驱动之家 mydrivers
5 saat, 17 dakika

华为昇腾、阿里平头哥、沐曦、壁仞：四大国产GPU可以在一起了！

快科技3月8日消息，上海人工智能实验室（上海AI实验室）官方宣布，基于此前的DeepLink混训技术方案、跨千公里多智算中心长稳混训千亿参数大模型，正式推出 DeepLink多元算力混合推理加速方案，实现了对华为昇腾、沐曦、阿里平头哥、壁仞等多款国产GPU芯片的混合调度与协同推理。据悉，DeepLink混推方案基于统一推理中间件、低时延通信、智能流量路由、策略求解器等原创技术，不仅可对多款芯片混合调度与协同推理，性能也大幅提升，对比单一芯片方案，推理时延TTFT最大可优化34.5％，推理吞吐最大可提升32％。近些年，国产AI GPU如雨后春笋，性能越来越强，但一方面都是各自为战，另一方面大模型推理技术也需要深入优化和提升。上海AI实验室在国产GPU异构算力中，运用了预填充-解码分离（PD分离）策略，验证了混合芯片高效协同推理的路径。同一数据中心内不同规格属性的GPU芯片组合优化使用，可以形成最具性价比的异构算力配比。具体实现上，上海AI实验室通过四大原创技术底座，实现了对异构算力资源的兼容调度。推理中间件（DLInfer）：以标准化融合算子接口打通上层框架与底层硬件壁垒，实现算法模型在多元硬件上的统一推理，降低应用门槛。高速通信库（DLSlime）：全面兼容各类主流物理连接协议，实现跨架构设备高速互联，核心场景带宽利用率突破97％；具有较强的异步处理能力，可实现计算与通信的重叠。智能流量路由系统（DLRouter）：支持KVCache感知的请求路由，最大限度减少重复或重叠请求，节省计算资源，实现分布式集群负载均衡分配。策略求解器（DLSolver）：自动获取异构芯片全方位评测数据，结合模型配置以及用户服务等级目标等输入，匹配最优PD分离配置策略，兼顾推理性能与成本。单一算力平台推理加速方面，可以实现在华为昇腾A2上，针对千卡规模下的化学数据生成场景，吞吐率提升61.9％；在沐曦曦云C500上，MinerU多模态生成推理加速60％。多款国产GPU芯片的深度混合调度与协同推理方面，千卡规模推理集群实测数据表明，在多模态生成、高并发智能服务等典型场景下，比单芯片方案推理时延TTFT最大可优化34.5％；在科学论文处理等长输入短输出推理任务中，推理吞吐可提升32％。值得一提的是，除了以上四家，寒武纪、燧原科技、天数智芯、无问芯穹、商汤科技、中科曙光等也都是上海AI实验室和DeepLink技术方案的合作伙伴。相信会看到越来越多的国产GPU并肩战斗！参考链接： DeepLink官网： https://deeplink.org.cn/home DeepLink Github： https://github.com/DeepLink-org DLInfer仓库： https://github.com/DeepLink-org/dlinfer DLSlime仓库： https://github.com/DeepLink-org/DLSlime DeepLink合作伙伴

Go to News Site