大语言模型知识库

使用ONNX优化大型语言模型的推理性能

ONNX LLM 推理优化 PyTorch 性能优化

本文详细介绍了如何使用ONNX(Open Neural Network Exchange)来优化大型语言模型的推理性能。内容包括ONNX的优势、将PyTorch模型转换为ONNX格式的步骤、使用ONNX Runtime进行推理的方法、性能优化技巧以及实际性能对比。通过ONNX,可以显著提高模型的推理速度并实现跨平台部署。

阅读更多

量化技术:让大型语言模型在消费级硬件上运行

量化技术 LLM 本地部署 BERT 性能优化

本文详细介绍了量化技术在大型语言模型本地部署中的应用。包括量化的原理、好处、常见方法、实践案例以及性能对比。通过量化,可以显著减少模型大小和计算需求,使得在普通硬件上运行复杂模型成为可能。

阅读更多