英伟达于2025年4月9日发布了一款名为“Llama-3.1-Nemotron-Ultra-253B-v1”的全新开源大语言模型,该模型在人工智能领域引发了广泛关注。这款模型基于Meta的Llama-3.1-405B-Instruct模型进行微调,拥有2530亿个参数,性能接近DeepSeek-R1,但其推理吞吐量却比DeepSeek-R1高出4倍,成为业界瞩目的焦点。
Llama-3.1-Nemotron-Ultra-253B-v1的核心优势在于其高效的推理能力与优化的资源利用率。在多项基准测试中,该模型表现优异,例如在GPQA、IFEval指令遵循和LiveCodeBench编码任务中分别取得了76分、89.5分和66.3分,超越了DeepSeek-R1的671亿参数模型。此外,该模型还支持128K token的上下文长度,能够在单个8xH100 GPU节点上高效运行,进一步降低了数据中心的运行成本。 Llama-3.1-Nemotron-Ultra-253B-v1专注于推理、人类聊天偏好和任务,如RAG(检索增强生成)和工具调用,同时支持多种AI应用场景,包括聊天机器人、代码生成、数学推理和科学问答等。其创新的神经架构搜索技术(NAS)显著减少了模型的内存占用,使其能够支持更复杂的工作负载,同时保持了高精度和效率。 ![]() 这款模型的发布不仅巩固了英伟达在AI领域的领先地位,也标志着AI技术在推理效率和资源利用率上的重大突破。通过开源许可协议,开发者和企业可以自由使用该模型,推动AI技术的进一步发展和应用。 Llama-3.1-Nemotron-Ultra-253B-v1的推出再次证明了英伟达在AI领域的创新能力,其卓越的性能和高效的推理能力将为AI行业带来深远影响。 |