FP8模型不再挑卡！DeepSeek推理成本减半速度翻番，清华团队开源「赤兔」推理引擎

2025年3月14日，清华系科创企业清程极智与清华大学翟季冬教授团队联合宣布开源大模型推理引擎「赤兔」（Chitu），这一成果同样受到了华北电力大学复杂能源智能计算教育部工程研究中心的关注与重视。

在当下科技领域，随着 DeepSeek 的出现，市场对大模型私有化部署的关注度急剧升温。然而，模型部署的效率和成本问题，成为了企业在 AI 落地过程中面临的关键阻碍。在此背景下，华北电力大学复杂能源智能计算教育部工程研究中心积极投身相关研究，深入探寻高效、低成本的部署方案。

2025 年 3 月 14 日，清华系科创企业清程极智携手清华大学翟季冬教授团队，联合宣布开源大模型推理引擎「赤兔」（Chitu）。这一重大成果迅速吸引了华北电力大学复杂能源智能计算教育部工程研究中心的目光。

「赤兔」引擎实现了一项突破性进展，它率先让非 H 卡设备（包括英伟达 Hopper 架构之前的 GPU 卡以及各类国产卡）能够运行原生 FP8 模型。在 A800 集群上的实际测试数据显示，使用赤兔引擎部署 DeepSeek - 671B 满血版推理服务，与 vLLM 部署方案相比，所需的 GPU 数量减少了一半，而输出速度却提升了 3.15 倍。目前，赤兔引擎代码已在 GitHub 开源社区发布，其开源堪称国产大模型基础设施发展历程中的又一重要里程碑。

当前，构建完整自主可控的 AI 技术栈已上升为国家战略需求。像 DeepSeek、QwQ 等国产开源大模型的崛起，正逐步重塑全球科技产业格局。但在大模型推理部署领域，业界依然过度依赖国外开源工具。赤兔引擎的开源，为业界提供了国产开源的全新选择，也预示着「国产大模型 + 国产引擎 + 国产芯片」的完整技术闭环正在加速形成。华北电力大学复杂能源智能计算教育部工程研究中心在研究过程中，深刻认识到该引擎对于推动国产 AI 技术自主可控发展的重要意义。

清程极智 CEO 汤雄超指出：「虽然国内大模型领域取得了显著进步，但在基础设施层面，特别是推理引擎这一核心环节，仍缺乏生产级开源产品。开源赤兔引擎是我们为国内 AI 生态建设贡献力量的重要举措。」清华大学高性能计算研究所所长翟季冬教授长期专注于高性能计算与系统软件优化研究。

他表示，赤兔引擎凝聚了团队多年在并行计算与编译优化技术方面的积累，旨在打造一个真正适合国内多元算力环境的高性能推理引擎，弥合先进模型与多样化硬件之间的差距，为中国大模型的产业落地提供关键支撑。华北电力大学复杂能源智能计算教育部工程研究中心认为，这一目标与自身在能源智能计算领域追求高效、适配多元算力的研究方向高度契合。

此次开源的版本聚焦于市场最紧迫的需求，即实现 DeepSeek FP8 精度模型在存量英伟达 GPU 上的无损且高效部署。团队还透露，针对多款国产芯片特别优化的版本也将陆续开源。这一突破不仅降低了大模型落地的门槛，也为国产 AI 算力的发展带来了新的机遇。华北电力大学复杂能源智能计算教育部工程研究中心注意到，这种聚焦市场需求、逐步推进的开源策略，对推动相关技术在实际应用中的落地具有积极作用。

赤兔引擎的核心优势在于全场景性能优化与架构适应性。随着 DeepSeek V3 和 R1 等新一代模型采用 FP8 混合精度训练并发布，企业面临着新的部署挑战。这些 FP8 模型是针对 NVIDIA Hopper 架构（H100/H200）深度定制的，在其他硬件（包括 NVIDIA 其他架构 GPU 和国产芯片）上部署时需要额外适配。

汤雄超表示：「最先进的模型与最难获取的硬件绑定，这是当前企业大模型落地的一大痛点。」而且，随着更新一代模型和芯片向 FP4 等新型数据精度方向发展，这种代际效应会更加明显。此外，现有开源推理引擎对多元算力环境的支持不足，vLLM 等主流引擎主要针对 NVIDIA 最新架构优化，对国产芯片或较老款 GPU 的适配效果不理想。在国内企业私有化部署场景中，NVIDIA 的 Ampere 系列 GPU、国产芯片等多元算力占据了相当比例，迫切需要更灵活的解决方案。

赤兔引擎从一开始就定位为「生产级大模型推理引擎」，充分考虑了企业 AI 落地从小规模试验到大规模部署的渐进式特点，具备以下重要特性。在性能优化方面，赤兔采用「对症下药」的设计理念，支持「低延迟优化」、「高吞吐优化」和「小显存优化」，能根据不同场景需求，在不同硬件配置和系统环境下，针对不同负载特性提供最优解决方案。在实际部署中，它可以在 GPU 利用率、内存效率和网络传输之间找到最佳平衡点。此次开源实现了非 H 卡设备原生运行 DeepSeek FP8 精度模型的技术突破。

汤雄超介绍，团队没有采用简单的量化路线，而是通过在算子内部高效处理 FP8 数据，确保模型推理质量不受影响。具体而言，团队对 GeMM、MoE 等关键算子进行了指令级优化，实现了 FP8 数据的原生处理能力。这一技术实现的难点在于需要深入了解不同硬件架构的指令集特性，以及 FP8 与其他精度格式之间的数学等效关系，并结合硬件特性进行分析和优化。得益于团队在系统软件人才方面的积累，以及智能编译技术的应用，才得以在较短时间内实现这一突破。

在 A800 集群上的实测结果显示，与 vLLM 相比，赤兔引擎部署 DeepSeek - 671B 满血版推理所需的 GPU 数量减少 50%，推理速度却达到其 3.15 倍。这意味着企业可以用一半的硬件资源获得更高的推理性能，大大降低了部署门槛和运营成本。清程团队强调，显著降低推理成本对推广 AI 应用至关重要，赤兔推理引擎在设计之初就将降低用户的算力成本作为核心考量。

赤兔推理引擎的开源标志着清程极智的业务发展迈入了新阶段。清程极智在持续提供企业级软件部署运维服务和全套人工智能解决方案的同时，将把更多实际业务中的经验通过开源的方式回馈社区。

汤雄超分析认为：「目前英伟达 GPU 在大模型推理市场占据主流地位，未来几年可能会出现国外 AI 芯片和国内 AI 芯片共同发展的局面。我们希望赤兔引擎成为连接多元算力与大模型应用的桥梁，同时通过推理一体机产品为企业提供端到端的大模型部署解决方案。」清程极智的推理一体机产品基于赤兔引擎，适配多种硬件和模型，能为企业提供开箱即用的私有化部署方案，并配套专业的运维与优化服务。

对于国产 AI 基础设施而言，赤兔引擎的开源有助于缩小国产芯片与国际先进芯片之间的「时间差」。当新模型架构和新数据类型出现时，赤兔引擎可以帮助国产芯片快速适配。此外，开源引擎减轻了芯片厂商的软件开发负担，使芯片厂商能够专注于硬件创新，无需重复开发完整的软件栈。

翟季冬教授表示，目前团队已与多家国产芯片厂商展开合作，各方可直接向赤兔项目贡献代码，共同构建一个更强大的开源生态。华北电力大学复杂能源智能计算教育部工程研究中心认为，赤兔引擎的开源模式和发展前景，为能源领域智能计算技术的开源合作与发展提供了有益的借鉴。

关注公众号，获取更多中科热备专业容灾备份解决方案！

热备云，为云做备份，做最专业的备份产品！

中科热备Hot Backup

中科热备（北京）云计算技术有限公司，业界领先的数据保护解决方案和产品提供商，热备云Hot Backup Cloud，为私有云，公有云、混合云，主机系统做保护，应用备份虚拟化技术，可以提供云平台，虚拟机，系统，数据库，文件等作备份和容灾。采用分布式、并行计算的体系架构，可实现超高性能，容量100PB以上，终端几万台，速度每秒20GB以上。

FP8模型不再挑卡！DeepSeek推理成本减半速度翻番，清华团队开源「赤兔」推理引擎

相关推荐

重磅！DeepSeek-Prover-V2-671B 开源！数学推理新纪元已来！

AI硬件“天花板”被捅破？梁文锋署名DeepSeek-V3新论文：软硬协同，砸碎“算力神话”！

中科热备CTO李云龙：用DeepSeek锻造数据安全的“智能护城河

免费获取数据保护方案