标签:TRL

为视觉语言多模态模型进行偏好优化

为视觉语言多模态模型进行偏好优化 训练模型使得它能够理解并预测人类偏好是一项比较复杂的任务。诸如 SFT (Supervised finetuning) 的传统的方法一般都需要...

Hugging Face 开源大语言模型生态系统概览

如何找到、缩小、适配并部署开源大型语言模型? 分享这个10分钟的教程,帮助你了解Hugging Face 🤗 中的各种工具,包括transformers、PEFT、TRL、TGI、Hub、Hu...

欢迎 Mixtral – 当前 Hugging Face 上最先进的 MoE 模型

最近,Mistral 发布了一个激动人心的大语言模型: Mixtral 8x7b,该模型把开放模型的性能带到了一个新高度,并在许多基准测试上表现优于 GPT-3.5。我们很高兴...

使用 PyTorch FSDP 微调 Llama 2 70B

引言 通过本文,你将了解如何使用 PyTorch FSDP 及相关最佳实践微调 Llama 2 70B。在此过程中,我们主要会用到 Hugging Face Transformers、Accelerate 和 TR...

使用 DDPO 在 TRL 中微调 Stable Diffusion 模型

引言 扩散模型 (如 DALL-E 2、Stable Diffusion) 是一类文生图模型,在生成图像 (尤其是有照片级真实感的图像) 方面取得了广泛成功。然而,这些模型生成的图...