Databrick推出Dolly 2.0 首款真开源类ChatGPT大模型，可随意修改商用

又来搅局者了，Databricks 利用了自己公司5000名员工原创了15 K 个比GPT质量更好的问答做的Dolly 2.0。并开源了全部内容，包括培训代码、数据集和模型权重。任何组织都可以创建、拥有和定制强大的LLM，可以与人交谈，而无需支付API访问费用或与第三方共享数据。

Databricks发布了Dolly 2.0，这是一个12B参数的指令遵循法学硕士，使用人类生成的指令数据集进行微调，可用于研究和商业用途。Databricks还发布了一个名为databricks-dolly-15k的数据集，其中包含15,000个高质量的人工生成的指令和响应对，可以进行商业使用。该数据集由5000多名Databricks员工在2023年3月和4月期间编写，旨在让大型语言模型展现ChatGPT的交互性。为了创建该数据集，Databricks采用了众包的方式，并提供了奖励。

原文地址：https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm

两周前，我们发布了Dolly，这是一种大型语言模型 (LLM)，其训练成本不到 30 美元，可以展示类似 ChatGPT 的人类交互性（也称为指令遵循）。今天，我们发布了Dolly 2.0，这是第一个开源的指令跟随法学硕士，它在人类生成的指令数据集上进行了微调，该数据集已获得许可用于研究和商业用途。

Dolly 2.0 是一个 12B 参数语言模型，它基于EleutherAI pythia模型系列，并专门根据 Databricks 员工众包的新的、高质量的人工生成指令跟随数据集进行了微调。

我们正在开源整个 Dolly 2.0，包括训练代码、数据集和模型权重，所有这些都适合商业使用。这意味着任何组织都可以创建、拥有和定制强大的 LLM，这些 LLM 可以与人们交谈，而无需支付 API 访问费用或与第三方共享数据。

Table of Contents

databricks-dolly-15k数据集

databricks-dolly-15k包含 15,000 个高质量的人工生成的提示/响应对，专为指令调优大型语言模型而设计。databricks-dolly-15k根据（Creative Commons Attribution-ShareAlike 3.0 Unported License ）的许可条款，任何人都可以出于任何目的使用、修改或扩展此数据集，包括商业应用程序。

据我们所知，该数据集是第一个开源的、人工生成的指令数据集，专门用于让大型语言模型展现 ChatGPT 神奇的交互性。由 5,000 多名 Databricks 员工在 2023 年 3 月和 4 月期间编写。这些培训记录自然、富有表现力，旨在代表广泛的行为，从头脑风暴和内容生成到信息提取和总结。databricks-dolly-15k

我们为什么要创建一个新的数据集？

当我们发布 Dolly 1.0 后，我们就被想要试用它的人们的请求淹没了。我们不断收到的第一个问题是“我可以将其用于商业用途吗？”

创建 Dolly 1.0 或 LLM 之后的任何指令的关键步骤是在指令和响应对的数据集上训练模型。Dolly 1.0 使用斯坦福羊驼团队使用 OpenAI API 创建的数据集进行训练，费用为 30 美元。该数据集包含 ChatGPT 的输出，正如斯坦福团队指出的那样，服务条款试图阻止任何人创建与 OpenAI 竞争的模型。所以，不幸的是，这个常见问题的答案是，“可能不会！”

据我们所知，所有现有的知名指令跟随模型（Alpaca、Koala、GPT4All、Vicuna）都受到此限制，禁止商业使用。为了解决这个难题，我们开始寻找方法来创建一个新的数据集，而不是“污染”用于商业用途。

我们是怎么做的？

我们从 OpenAI 研究论文中了解到，原始 InstructGPT 模型是在一个包含 13,000 个指令遵循行为演示的数据集上训练的。受此启发，我们着手看看是否可以让 Databricks 员工带头取得类似的结果。

事实证明，生成 13k 个问题和答案比看起来要难。每个答案都必须是原创的。它不能从 ChatGPT 或网络上的任何地方复制，否则会污染我们的数据集。这看起来令人望而生畏，但 Databricks 拥有超过 5,000 名对 LLM 非常感兴趣的员工。所以我们认为我们可以在他们之间进行众包，以创建比 40 个标记器为 OpenAI 创建的质量更高的数据集。但我们知道他们都很忙并且有全职工作，所以我们需要激励他们这样做。

我们举办了一场比赛，前 20 名贴标签者将获得大奖。我们还概述了 7 项非常具体的任务：

开放问答：比如“为什么人们喜欢喜剧电影？” 或“法国的首都是哪里？” 在某些情况下，没有正确的答案，而在另一些情况下，则需要借鉴整个世界的知识。
封闭式问答：这些问题只能使用参考文本中包含的信息来回答。例如，给出维基百科中关于原子的一段，人们可能会问，“原子核中质子和中子的比例是多少？”
从维基百科中提取信息：注释者将从维基百科中复制一个段落，并从该段落中提取实体或其他事实信息，例如重量或测量值。
总结来自维基百科的信息：为此，注释者提供了一段来自维基百科的文章，并被要求将其提炼成简短的摘要。
头脑风暴：此任务要求开放式构思和相关的可能选项列表。例如，“这个周末我可以和朋友一起做哪些有趣的活动？”。
分类：对于此任务，注释者被要求对类别成员进行判断（例如，列表中的项目是动物、矿物或蔬菜）或判断短文本的属性，例如电影评论的情感。
创意写作：这项任务包括写一首诗或一封情书。

我们最初怀疑我们是否会获得 10,000 个结果。但通过夜间排行榜游戏化，我们在一周内成功打破了 15,000 个结果。由于害怕影响我们的生产力，我们结束了比赛。

我们创建商业上可行的模型的旅程

我们还想制作一个可以商业使用的开源模型。尽管databricks-dolly-15kDolly 1.0 在其上训练的数据集 Alpaca 小得多，但基于EleutherAI 的 pythia-12b生成的 Dolly 2.0 模型表现出高质量的指令遵循行为。事后看来，这并不奇怪。最近几个月发布的许多指令调优数据集都包含合成数据，这些数据通常包含幻觉和事实错误。

databricks-dolly-15k另一方面，它是由专业人士生成的，质量很高，并且包含对大多数任务的长答案。

您可以亲自查看一些示例，了解如何使用 Dolly 2.0 进行摘要和内容生成。根据我们最初的客户反馈，很明显，诸如此类的功能将在整个企业中得到广泛应用。

真正开放的大型语言模型

我们反复从客户那里听说，拥有自己的模型会为他们提供最好的服务，使他们能够为其特定领域的应用程序创建更高质量的模型，而无需将敏感数据移交给第三方。

我们还认为，偏见、问责制和人工智能安全等重要问题应该由不同利益相关者组成的广泛社区来解决，而不仅仅是少数大公司。开源数据集和模型鼓励评论、研究和创新，这将有助于确保每个人都能从人工智能技术的进步中受益。

作为技术和研究神器，我们并不期望 Dolly 在有效性方面是最先进的。然而，我们确实希望 Dolly 和开源数据集将作为大量后续工作的种子，这可能有助于引导更强大的语言模型。

今天我该如何开始？

要下载 Dolly 2.0 模型权重，只需访问Databricks Hugging Face页面并访问databricks-labs 上的 Dolly 存储库以下载databricks-dolly-15k dataset. 并加入我们的网络研讨会，了解如何为您的组织利用 LLM。

资源

使用拥抱面和 Deepspeed 微调大型语言模型

一个大模型统治他们吗

自指导：将语言模型与自生成指令对齐

训练语言模型以遵循人类反馈的指令

本文地址：https://www.163264.com/1864

Databrick推出Dolly 2.0 首款真开源类ChatGPT大模型 ，可随意修改商用