Alpaca羊驼（斯坦福最新模型） | AI黑洞

GPT-3.5 (text-davinci-003)、ChatGPT、Claude 和 Bing Chat 等指令跟随模型变得越来越强大。许多用户现在定期与这些模型交互，甚至将它们用于工作。然而，尽管它们得到广泛部署，指令遵循模型仍然存在许多缺陷：它们会产生虚假信息、传播社会刻板印象并产生有毒语言。

为了在解决这些紧迫问题方面取得最大进展，学术界的参与很重要。不幸的是，在学术界对指令遵循模型进行研究一直很困难，因为没有开源模型在功能上接近闭源模型，例如 OpenAI 的 text-davinci-003。

我们正在发布我们关于指令跟随语言模型的发现，该模型被称为Alpaca ，它是从 Meta 的LLaMA 7B 模型中微调而来的。我们使用 text-davinci-003在以自我指导方式生成的 52K 指令跟随演示上训练羊驼模型。Alpaca 表现出许多类似于 OpenAI 的 text-davinci-003 的行为，但也出奇地小且易于复制/便宜。

我们正在发布我们的训练配方和数据，并打算在未来发布模型权重。我们还举办了一个互动演示，让研究界更好地了解羊驼的行为。交互可以暴露意想不到的能力和失败，这将指导我们未来对这些模型的评估。我们还鼓励用户在我们的网络演示中报告任何相关行为，以便我们更好地理解和减轻这些行为。由于任何版本都有风险，我们稍后将在本博文中讨论我们对这个公开版本的思考过程。

我们强调 Alpaca仅用于学术研究，禁止任何商业用途。这个决定有3个因素：第一，Alpaca基于LLaMA，有非商业许可，所以我们必然继承这个决定。其次，指令数据基于 OpenAI 的 text-davinci-003，其使用条款禁止开发与 OpenAI 竞争的模型。最后，我们没有设计足够的安全措施，所以 Alpaca 还没有准备好部署到一般用途。