开源大语言模型数据集预训练

NameRelease DatePaper/BlogDatasetTokens (T)License
starcoderdata2023/05StarCoder: A State-of-the-Art LLM for Codestarcoderdata0.25Apache 2.0
RedPajama2023/04RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokensRedPajama-Data1.2Apache 2.0

Licences 是什么意思?

  • Apache 2.0: 允许用户为任何目的使用软件,发布、修改软件,并根据许可证的条款发布修改后的软件版本,而无需考虑版税。
  • MIT: 类似于Apache 2.0,但更短更简单。此外,与Apache 2.0相比,不需要声明对原始代码的任何重大更改。
  • CC BY-SA-4.0: 允许(i)复制和重新分发材料,以及(ii)混合、转换和构建材料
    出于任何目的,甚至是商业目的。但如果你选择了后者,你必须在与原版相同的许可下分发你的贡献。(因此,对于内部团队来说可能是不可行的。)
  • OpenRAIL-M v1: 允许免费访问和灵活的下游使用和共享模型及其修改,并附带一组使用限制(见附件a)
  • BSD-3-Clause: 此版本允许为任何目的无限制地重新发布,只要其版权声明和许可证的免责声明保持不变。

⚠️ 免责声明: 本页面中提供的信息不构成,也不打算构成法律意见。本站对使用该模型的第三方的行为不负责。为商业目的使用模型前请咨询律师。

赞赏

微信赞赏支付宝赞赏