首页>中国>大模型>正文

百聆(BayLing)- 一个遵循指令的大型语言模型

百聆(BayLing),一个遵循指令的大型语言模型,它具有与人类一致的多语言和多轮交互能力。

大型语言模型 (LLM) 在语言理解和生成方面表现出了非凡的能力。从基座 LLM 发展到遵循指令的LLM,指令微调在使 LLM 与人类偏好保持一致方面起着至关重要的作用。然而,现有的 LLM 通常侧重于英语,导致非英语语言的表现较差。为了提高非英语语言的性能,需要为基础 LLM 收集特定语言的训练数据,并为指令微调构建特定语言的指令,这两者都有较大的代价。为了最大限度地减少人工工作量,我们提出通过交互式翻译任务,将语言生成和指令遵循的能力从英语转移到其他语言。

我们发布了百聆,一个以 LLaMA 为基座的遵循指令的 LLM。我们自动构建了交互式翻译指令,来对其进行指令微调。充分的评测实验表明,百聆实现了与 GPT-3.5-turbo 相当的性能,并且使用的参数大小要小得多(仅为 130 亿)。在翻译任务是的实验结果表明,百聆在自动评估下实现了与 GPT-4 相比 95% 的单轮翻译能力,在人工评估下实现了与 GPT-3.5-turbo 相比 96% 的交互式翻译能力。为了评估模型在通用任务上的性能,我们创建了一个名为百聆-80的多轮指令测试集。在百聆-80上的实验结果表明,百聆达到了与 GPT-3.5-turbo 相比 89% 的性能。百聆在中文高考和英文 SAT 的知识评估测试集上也表现出色,在众多遵循指令的 LLM 中仅次于 GPT-3.5-turbo。

我们已经在 GitHub 上公开了我们的训练、推理和评估代码。此外,我们还在 HuggingFace 上公开了 百聆-7B 和 百聆-13B 的模型权重。我们搭建了一个在线演示系统,让研究社区更方便使用我们的模型。此外,我们还发布了我们建立的 百聆-80 测试集,包含 80 条中英文的两轮指令,可用于综合评价LLMs的多语言、多轮交互能力。有关更多的实验和更详细的发现,请参阅我们的博客和论文。

相关推荐