知识库 -LLM GPU Helper

量化技术：让大型语言模型在消费级硬件上运行

发布者李华 | August 26, 2024

量化技术 LLM 本地部署 BERT 性能优化

本文详细介绍了量化技术在大型语言模型本地部署中的应用。包括量化的原理、好处、常见方法、实践案例以及性能对比。通过量化，可以显著减少模型大小和计算需求，使得在普通硬件上运行复杂模型成为可能。

发布者张明 | August 26, 2024

LLaMA 2 GPU 本地部署性能分析

本文详细介绍了如何在家用GPU上部署LLaMA 2大型语言模型，包括硬件要求、环境设置、模型下载转换、加载推理等步骤，并对其在不同配置下的性能进行了分析。

1 2 3

🏠 💻 🤖 📚