您的位置：UltraLAB图形工作站方案网站 > 人工智能 > 深度学习 > NvidiaAI发布llama-3.1-nemotron-51B：一种新的LLM，可在推理期间在单个GPU上运行 4倍的工作负载

NvidiaAI发布llama-3.1-nemotron-51B：一种新的LLM，可在推理期间在单个GPU上运行 4倍的工作负载

时间：2024-09-26 03:46:41 来源：UltraLAB图形工作站方案网站 人气：23973 作者：管理员

Nvidia 推出了其最新的大型语言模型（LLM）产品 Llama-3.1-Nemotron-51B。该模型基于 Meta 的 Llama-3.1-70B，使用先进的神经架构搜索（NAS）技术进行了微调，在性能和效率方面都取得了突破。该模型专为单个 Nvidia H100 GPU 而设计，可显著降低内存消耗、计算复杂性和与运行此类大型模型相关的成本。它标志着 Nvidia 不断努力为实际应用优化大规模 AI 模型的一个重要里程碑。

Llama-3.1-Nemotron-51B 的起源

Llama-3.1-Nemotron-51B 是 Meta 的 Llama-3.1-70B 的衍生产品，于 2024 年 7 月发布。虽然 Meta 的模型已经在性能方面树立了高标准，但 Nvidia 试图通过专注于效率来进一步突破极限。通过使用 NAS，Nvidia 的研究人员创建了一个模型，该模型可提供相似（如果不是更好的）性能，并显著降低资源需求。在原始计算能力方面，Llama-3.1-Nemotron-51B 的推理速度比其前身快 2.2 倍，同时保持相当的准确性水平。

效率和性能的突破

LLM 开发中的关键挑战之一是平衡准确性和计算效率。许多大型模型提供了最先进的结果，但以消耗大量硬件和能源资源为代价，这限制了它们的适用性。Nvidia 的新模型在这两个竞争因素之间取得了微妙的平衡。

Llama-3.1-Nemotron-51B 实现了令人印象深刻的精度-效率权衡，降低了内存带宽，降低了每秒浮点运算数（FLOP）并减少了整体内存占用，而不会影响模型执行推理、总结和语言生成等复杂任务的能力。Nvidia 已将模型压缩到可以在单个 H100 GPU 上运行比以往更大的工作负载的程度，从而为开发人员和企业开辟了许多新的可能性。

改进的工作负载管理和成本效率

Llama-3.1-Nemotron-51B 的一个突出特点是它能够在单个 GPU 上管理更大的工作负载。此模型允许开发人员在更具成本效益的环境中部署高性能 LLM，从而在一个 H100 单元上运行以前需要多个 GPU 的任务。

例如，该模型在推理过程中可以处理的工作负载是参考 Llama-3.1-70B 的 4 倍。它还允许更快的吞吐量，Nvidia 报告称在关键领域的性能比其他模型高 1.44 倍。Llama-3.1-Nemotron-51B 的效率源于一种创新的架构方法，该方法侧重于减少计算过程中的冗余，同时仍保留模型以高精度执行复杂语言任务的能力。

架构优化：成功的关键

Llama-3.1-Nemotron-51B 的成功在很大程度上归功于一种新颖的架构优化方法。传统上，LLM 是使用相同的块构建的，这些块在整个模型中重复出现。虽然这简化了构建过程，但也带来了效率低下，尤其是在内存和计算成本方面。

Nvidia 通过采用优化推理模型的 NAS 技术来解决这些问题。该团队使用了块蒸馏过程，其中训练更小、更高效的学生模型来模拟大型教师模型的功能。通过改进这些学生模型并评估它们的性能，Nvidia 生产了一个版本的 Llama-3.1，该版本提供了类似水平的准确性，同时大大降低了资源需求。

块蒸馏过程允许 Nvidia 在模型中探索注意力和前馈网络（FFN）的不同组合，根据任务的具体要求创建优先考虑速度或准确性的替代配置。这种灵活性使 Llama-3.1-Nemotron-51B 成为需要大规模部署 AI 的各个行业的强大工具，无论是在云环境、数据中心，甚至是边缘计算设置中。

拼图算法和知识蒸馏

Puzzle 算法是使 Llama-3.1-Nemotron-51B 有别于其他模型的另一个关键组成部分。该算法对模型中的每个潜在块进行评分，并确定哪些配置将在速度和准确性之间产生最佳权衡。通过使用知识蒸馏技术，Nvidia 缩小了参考模型（Llama-3.1-70B）和 Nemotron-51B 之间的精度差距，同时显著降低了训练成本。

通过这个过程， Nvidia 创建了一个在 AI 模型开发的高效前沿运行的模型，突破了使用单个 GPU 可以实现的界限。通过确保模型中的每个块都尽可能高效，Nvidia 创建了一个在准确性和吞吐量方面优于许多同行的模型。

NVIDIA 致力于提供经济高效的 AI 解决方案

成本一直是广泛采用大型语言模型的重大障碍。虽然这些模型的性能是不可否认的，但它们的推理成本限制了它们的使用，仅限于资源最丰富的组织。Nvidia 的 Llama-3.1-Nemotron-51B 正面解决了这一挑战，提供了一种性能高且旨在提高成本效益的模型。

该模型的内存和计算要求降低，使得可能没有资源运行大型模型的小型组织和开发人员更容易使用。Nvidia 还简化了部署过程，将模型打包为其 Nvidia 推理微服务（NIM）的一部分，该服务使用 TensorRT-LLM 引擎进行高吞吐量推理。该系统旨在在各种设置（从云环境到边缘设备）中轻松部署，并且可以根据需求进行扩展。

未来的应用和影响

Llama-3.1-Nemotron-51B 的发布对生成式 AI 和 LLM 的未来具有深远的影响。通过使高性能模型更易于访问且更具成本效益，Nvidia 为更广泛的行业利用这些技术打开了大门。推理成本的降低还意味着 LLM 现在可以部署在以前成本太高而无法证明的领域，例如实时应用程序、客户服务聊天机器人等。

模型开发中使用的 NAS 方法的灵活性意味着 Nvidia 可以继续针对不同的硬件设置和用例改进和优化架构。无论开发人员需要针对速度还是准确性进行优化的模型，Nvidia 的 Llama-3.1-Nemotron-51B 都能提供满足各种要求的基础。

NvidiaAI发布llama-3.1-nemotron-51B：一种新的LLM，可在推理期间在单个GPU上运行 4倍的工作负载

最新最全AI训练与推理、大模型、生成式AI应用工作站/机架式/便携式服务器配置推荐2024v3

相关文章

工程技术(工科)专业工作站/服务器硬件配置选型

新闻排行榜

最新信息

应用导航: