大语言模型知识库
量化技术:让大型语言模型在消费级硬件上运行
量化技术 LLM 本地部署 BERT 性能优化本文详细介绍了量化技术在大型语言模型本地部署中的应用。包括量化的原理、好处、常见方法、实践案例以及性能对比。通过量化,可以显著减少模型大小和计算需求,使得在普通硬件上运行复杂模型成为可能。
阅读更多在家用GPU部署LLaMA 2: 步骤和性能分析
LLaMA 2 GPU 本地部署 性能分析本文详细介绍了如何在家用GPU上部署LLaMA 2大型语言模型,包括硬件要求、环境设置、模型下载转换、加载推理等步骤,并对其在不同配置下的性能进行了分析。
阅读更多