🆕最新资讯🆕
大模型的训练和微调对显存要求很高,优化器是显存主要开销之一。近日,清华大学研究团队提出了一种用于神经网络训练的4比特优化器,能够节省模型训练的内存开销,并且具有与全精度优化器相当的准确率。该优化器在多个预训练和微调任务上进行了实验,能够在不降低准确率的情况下将微调LLaMA-7B模型的显存开销降低多达57%。详情请查阅论文:[链接],代码:[链接]。这项研究对于解决大模型训练中的显存瓶颈问题具有重要意义。
来源:https://www.jiqizhixin.com/
原文链接:https://aixinjiyuan.com/786.html,转载请注明出处~~~
评论0