首页>中国>大模型>Anima: 第一个开源的基于QLoRA的33B中文大语言模型

Anima: 第一个开源的基于QLoRA的33B中文大语言模型

国家: 中国 类型: 大模型

标签: QLoRA

中文网站: https://github.com/lyogavin/Anima 进入网站

GitHub - lyogavin/Anima: 第一个开源的基于QLoRA的33B中文大语言模型First QLoRA based open source 33B Chinese LLM

第一个开源的基于QLoRA的33B中文大语言模型。

AI Community从来都是非常开放的,AI发展到今天,离不开很多以前的重要开源工作,开放共享的Paper,或者的开源数据和代码。我们相信AI的未来也一定是开放的。希望能为开源社区做一些贡献。

为什么33B模型很重要?QLoRA是个Game Changer?

之前大部分开源可finetune的模型大都是比较小的模型7B或者13B,虽然可以在一些简单的chatbot评测集上,通过finetune训练有不错的表现。但是由于这些模型规模还是有限,LLM核心的reasoning的能力还是相对比较弱。这就是为什么很多这种小规模的模型在实际应用的场景表现像是个玩具。如这个工作中的论述:chatbot评测集比较简单,真正比较考验模型能力的复杂逻辑推理及数学问题上小模型和大模型差距还是很明显的。

因此我们认为QLoRA 的工作很重要,重要到可能是个Game Changer。通过QLoRA的优化方法,第一次让33B规模的模型可以比较民主化的,比较低成本的finetune训练,并且普及使用。我们认为33B模型既可以发挥大规模模型的比较强的reasoning能力,又可以针对私有业务领域数据进行灵活的finetune训练提升对于LLM的控制力。