英特尔通过软硬件为LIama 2大模型提供加速

首页

BOOSCRM系统

1111

发布时间：2023-07-26 13:55:28

大语言模型（LLM）在生成文本、总结和翻译内容、回答问题、参与对话以及执行复杂任务（如解决数学问题或推理）方面表现出的卓越能力，使其成为最有希望规模化造福社会的AI技术之一。大语言模型有望解锁更丰富的创意和洞察，并激发AI社区推进技术发展的热情。

Llama 2旨在帮助开发者、研究人员和组织构建基于生成式AI的工具和体验。Meta发布了多个Llama 2的预训练和微调版本，拥有70亿、130亿和700亿三种参数。通过Llama 2，Meta在公司的各个微调模型中采用了三项以安全为导向的核心技术：安全的有监督微调、安全的目标文本提取以及安全的人类反馈强化学习（RLHF）。这些技术相结合，使Meta得以提高安全性能。随着越来越广泛的使用，人们将能够以透明、公开的方式不断识别并降低生成有害内容的风险。

“英特尔提供了满足模型的开发和部署的AI优化软件。开放生态系统是英特尔得天独厚的战略优势，在AI领域亦是如此。我们致力于培育一个充满活力的开放生态系统来推动AI创新，其安全、可追溯、负责任以及遵循道德，这对整个行业至关重要。此次发布的大模型进一步彰显了我们的核心价值观——开放，为开发人员提供了一个值得信赖的选择。Llama 2模型的发布是我们行业向开放式AI发展转型迈出的重要一步，即以公开透明的方式推动创新并助力其蓬勃发展。”

Habana Gaudi2旨在为用户提供高性能、高能效的训练与推理，尤其适用于诸如Llama和Llama 2的大语言模型。Gaudi2加速器具备96GB HBM2E的内存容量，可满足大语言模型的内存需求并提高推理性能。Gaudi2配备Habana® SynapseAI®软件套件，该套件集成了对PyTorch和DeepSpeed的支持，以用于大语言模型的训练和推理。此外，SynapseAI近期开始支持HPU Graphs和DeepSpeed推理，专门针对时延敏感度高的推理应用。Gaudi2还将进行进一步的软件优化，包括计划在2023年第三季度支持FP8数据类型。此优化预计将在执行大语言模型时大幅提高性能、吞吐量，并有效降低延迟。

上述内容介绍了在英特尔AI硬件产品组合上运行Llama 2的70亿和130亿参数模型推理性能的初始评估，包括Habana Gaudi2深度学习加速器、第四代英特尔至强可扩展处理器、英特尔®至强® CPU Max系列和英特尔数据中心GPU Max系列。我们将继续通过软件发布提供优化，后续会再分享更多关于大语言模型和更大的Llama 2模型的评估。