开源大语言模型数据集预训练

Name	Release Date	Paper/Blog	Dataset	Tokens (T)	License
starcoderdata	2023/05	StarCoder: A State-of-the-Art LLM for Code	starcoderdata	0.25	Apache 2.0
RedPajama	2023/04	RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens	RedPajama-Data	1.2	Apache 2.0

Licences 是什么意思?

Apache 2.0: 允许用户为任何目的使用软件，发布、修改软件，并根据许可证的条款发布修改后的软件版本，而无需考虑版税。
MIT: 类似于Apache 2.0，但更短更简单。此外，与Apache 2.0相比，不需要声明对原始代码的任何重大更改。
CC BY-SA-4.0: 允许(i)复制和重新分发材料，以及(ii)混合、转换和构建材料
出于任何目的，甚至是商业目的。但如果你选择了后者，你必须在与原版相同的许可下分发你的贡献。(因此，对于内部团队来说可能是不可行的。)
OpenRAIL-M v1: 允许免费访问和灵活的下游使用和共享模型及其修改，并附带一组使用限制(见附件a)
BSD-3-Clause: 此版本允许为任何目的无限制地重新发布，只要其版权声明和许可证的免责声明保持不变。

⚠️ 免责声明: 本页面中提供的信息不构成，也不打算构成法律意见。本站对使用该模型的第三方的行为不负责。为商业目的使用模型前请咨询律师。

赞赏

微信赞赏支付宝赞赏