开源大语言模型数据集预训练
Name | Release Date | Paper/Blog | Dataset | Tokens (T) | License |
---|---|---|---|---|---|
starcoderdata | 2023/05 | StarCoder: A State-of-the-Art LLM for Code | starcoderdata | 0.25 | Apache 2.0 |
RedPajama | 2023/04 | RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens | RedPajama-Data | 1.2 | Apache 2.0 |
Licences 是什么意思?
- Apache 2.0: 允许用户为任何目的使用软件,发布、修改软件,并根据许可证的条款发布修改后的软件版本,而无需考虑版税。
- MIT: 类似于Apache 2.0,但更短更简单。此外,与Apache 2.0相比,不需要声明对原始代码的任何重大更改。
- CC BY-SA-4.0: 允许(i)复制和重新分发材料,以及(ii)混合、转换和构建材料
出于任何目的,甚至是商业目的。但如果你选择了后者,你必须在与原版相同的许可下分发你的贡献。(因此,对于内部团队来说可能是不可行的。) - OpenRAIL-M v1: 允许免费访问和灵活的下游使用和共享模型及其修改,并附带一组使用限制(见附件a)
- BSD-3-Clause: 此版本允许为任何目的无限制地重新发布,只要其版权声明和许可证的免责声明保持不变。
赞赏⚠️ 免责声明: 本页面中提供的信息不构成,也不打算构成法律意见。本站对使用该模型的第三方的行为不负责。为商业目的使用模型前请咨询律师。
微信赞赏支付宝赞赏