百聆（BayLing）- 一个遵循指令的大型语言模型

中文网站： http://mlops.ccloud.conestore.cn:30010/bayling/#/ 进入网站

百聆（BayLing），一个遵循指令的大型语言模型，它具有与人类一致的多语言和多轮交互能力。

大型语言模型 (LLM) 在语言理解和生成方面表现出了非凡的能力。从基座 LLM 发展到遵循指令的LLM，指令微调在使 LLM 与人类偏好保持一致方面起着至关重要的作用。然而，现有的 LLM 通常侧重于英语，导致非英语语言的表现较差。为了提高非英语语言的性能，需要为基础 LLM 收集特定语言的训练数据，并为指令微调构建特定语言的指令，这两者都有较大的代价。为了最大限度地减少人工工作量，我们提出通过交互式翻译任务，将语言生成和指令遵循的能力从英语转移到其他语言。

我们发布了百聆，一个以 LLaMA 为基座的遵循指令的 LLM。我们自动构建了交互式翻译指令，来对其进行指令微调。充分的评测实验表明，百聆实现了与 GPT-3.5-turbo 相当的性能，并且使用的参数大小要小得多（仅为 130 亿）。在翻译任务是的实验结果表明，百聆在自动评估下实现了与 GPT-4 相比 95% 的单轮翻译能力，在人工评估下实现了与 GPT-3.5-turbo 相比 96% 的交互式翻译能力。为了评估模型在通用任务上的性能，我们创建了一个名为百聆-80的多轮指令测试集。在百聆-80上的实验结果表明，百聆达到了与 GPT-3.5-turbo 相比 89% 的性能。百聆在中文高考和英文 SAT 的知识评估测试集上也表现出色，在众多遵循指令的 LLM 中仅次于 GPT-3.5-turbo。

我们已经在 GitHub 上公开了我们的训练、推理和评估代码。此外，我们还在 HuggingFace 上公开了百聆-7B 和百聆-13B 的模型权重。我们搭建了一个在线演示系统，让研究社区更方便使用我们的模型。此外，我们还发布了我们建立的百聆-80 测试集，包含 80 条中英文的两轮指令，可用于综合评价LLMs的多语言、多轮交互能力。有关更多的实验和更详细的发现，请参阅我们的博客和论文。