大语言模型快速推理:在 Habana Gaudi2 上推理 BLOOMZ本文将展示如何在 Habana® Gaudi®2 上使用 🤗 Optimum Habana。Optimum Habana 是 Gaudi2 和 🤗 Transformers 库之间的桥梁。本文设计并实...AI 技术文章# BLOOMZ# LLM3年前04290
在一张 24 GB 的消费级显卡上用 RLHF 微调 20B LLMs我们很高兴正式发布 trl 与 peft 的集成,使任何人都可以更轻松地使用强化学习进行大型语言模型 (LLM) 微调!在这篇文章中,我们解释了为什么这是现有微调方法的有竞争力的替代方案。 请注意, ...AI 技术文章# LLM# RLHF3年前04420
为大语言模型建立红队对抗在巨量文本数据下训练的大语言模型非常擅长生成现实文本。但是,这些模型通常会显现出一些不良行为像泄露个人信息 (比如社会保险号) 和生成错误信息,偏置,仇恨或有毒内容。举个例子,众所周知,GPT3 的早...AI 技术文章# LLM3年前04400
使用 Megatron-LM 训练语言模型在 PyTorch 中训练大语言模型不仅仅是写一个训练循环这么简单。我们通常需要将模型分布在多个设备上,并使用许多优化技术以实现稳定高效的训练。Hugging Face 🤗 Accelerate 的创...AI 技术文章# LLM# PyTorch# Transformers2年前04790
千亿参数开源大模型 BLOOM 背后的技术假设你现在有了数据,也搞到了预算,一切就绪,准备开始训练一个大模型,一显身手了,“一朝看尽长安花”似乎近在眼前 …… 且慢!训练可不仅仅像这两个字的发音那么简单,看看 BLOOM 的训练或许对你有帮助...AI 技术文章# BLOOM# LLM3年前04060
大语言模型:新的摩尔定律?不久前,微软和 Nvidia 推出了 Megatron-Turing NLG 530B,一种基于 Transformer 的模型,被誉为是 “世界上最大且最强的生成语言模型”。 毫无疑问,此项成果对于...AI 技术文章# LLM2年前04320