中国迷信院团队首篇LLM模子缩短综述:细聊剪枝、知识蒸馏、量化技术
随着 LLM 的中国枝知突破性使命逐渐放缓 ,对于若何让更多人运用 LLM 成为时下热门的迷信模缩钻研倾向 ,模子缩短可能是院团 LLM 未来的一个前途。此前 OpenAI 首席迷信家 Ilya Sutskever 展现可能经由缩短的队首短综视角来看待无把守学习 。本文初次总结了对于 LLM 的述细识蒸术四种模子缩短措施 ,并提出了未来进一步钻研的聊剪馏量可能倾向 ,引人反思。化技
最近,中国枝知大型语言模子(LLM)在种种使掷中展现卓越。迷信模缩可是院团 ,纵然有卓越的队首短综使命处置能耐,LLM 却面临着重大的述细识蒸术挑战 ,这些挑战源于其重大的聊剪馏量规模以及合计需要。举个例子,化技GPT-175B 版本具备惊人的中国枝知 1750 亿参数 ,至少需要 320GB(运用 1024 的倍数)的半精度(FP16)格式存储。此外,部署此模子妨碍推理还需要至少五个 A100 GPU,每一个 GPU 具备 80GB 的内存,这样能耐实用地保障运行。
为了处置这些下场,当下一种被称为模子缩短的措施可能成为处置妄想。模子缩短可能将大型 、资源密集型模子转换为适宜存储在受限挪移配置装备部署上的松散版本。此外它可能优化模子 ,以最小的延迟更快地实施 ,或者实现这些目的之间的失调。
除了技术方面之外 ,LLM 还激发了对于情景以及伦理下场的品评辩说。这些模子给睁开中国家的工程师以及钻研职员带来了严正挑战,在这些国家,有限资源可能会成为取患上模子所需根基硬件的阻力。LLM 的大批能源破费会减轻碳排放,家养智能钻研与可不断睁开也黑白常紧张的一个下场 。处置这些挑战的一个可能的处置妄想是运用模子缩短技术,在不清晰影响功能的情景下具备削减碳排放的后劲。经由它,人类可能处置情景下场 ,增强人工智能的可碰头性,并增长 LLM 部署中的容纳性 。
本文中 ,来自中国迷信院信息工程钻研所、人大高瓴家养智能学院的钻研者论述了最近在特意为 LLM 量身定制的模子缩短技术规模取患上的妨碍 。本文对于措施 、目的以及基准妨碍详尽的审核 ,并妨碍了分类。

论文地址:https://arxiv.org/pdf/2308.07633.pdf
如下图 1 所示,本文提出的分类法为清晰 LLM 的模子缩短措施提供了一个残缺的妄想化框架。这一探究搜罗对于已经有成熟技术的透辟合成,搜罗但不限于剪枝 、知识蒸馏、量化以及低秩因子分解。此外 ,本文揭示了之后的挑战 ,并展望了这一睁开规模未来潜在的钻研轨迹 。
钻研者还建议社区相助 ,为 LLM 建树一个具备生态意见