基于算子融合和向量化访存的大语言模型部署优化研究
随着自然语言处理模型参数量的增加,推理效率和资源利用效率成为大语言模型部署的关键挑战。为了应对这一挑战,文章利用算子融合技术和向量化访存技术优化模型推理速度和资源利用率。实验过程中,选用LLaMA-7B和LLaMA-13B作为基础模型,并通过使用Wi...
手机阅读本文
下载APP 手机查看本文
首届全国大模型与决策智能大会论文集
2024年
立即查看 >
图书推荐
相关工具书