标签：Transformers

欢迎 Mixtral – 当前 Hugging Face 上最先进的 MoE 模型

最近，Mistral 发布了一个激动人心的大语言模型: Mixtral 8x7b，该模型把开放模型的性能带到了一个新高度，并在许多基准测试上表现优于 GPT-3.5。我们很高兴...

1年前 (2024)

引言通过本文，你将了解如何使用 PyTorch FSDP 及相关最佳实践微调 Llama 2 70B。在此过程中，我们主要会用到 Hugging Face Transformers、Accelerate 和 TR...

1年前 (2023)

Google Colab，全称 Colaboratory，是 Google Research 团队开发的一款产品。在 Colab 中，任何人都可以通过浏览器编写和执行任意 Python 代码。它尤其适合机...

1年前 (2023)

4## 引言基于 transformer 的模型已被证明对很多 NLP 任务都非常有用。然而，$$O(n^2)$$ 的时间和内存复杂度 (其中 $$n$$ 是序列长度) 使得在长序列 ($n >...

1年前 (2023)

我们的工程师，Transformers.js 作者Joshua Lochne在2023年11月18日在杭州举办 FEDAY 上带来了主题为「Transformers.js: State-of-the-art Machine Learning ...

1年前 (2023)

本文旨在对 transformers 支持的各种量化方案及其优缺点作一个清晰的概述，以助于读者进行方案选择。目前，量化模型有两个主要的用途: 在较小的设备上进行...

1年前 (2023)

译者注: 到底是 AI 会吃掉软件还是软件会吃掉 AI？为了 job security 工程师应该把宝押在哪儿？这篇 2021 年的文章提供的一些视角似乎印证了它现在的流行，有...

1年前 (2023)

近来，大语言模型 (LLM) 已被证明是提高编程、内容生成、文本分析、网络搜索及远程学习等诸多领域生产力的可靠工具。大语言模型对用户隐私的影响尽管 LLM ...

2年前 (2023)

为了庆祝 Hugging Face 新开设的免费开源 Audio Transformers 课程的启动，我们组织了一场不容错过的网络直播活动！这是直播回放的第一部分，错过直播的宝子...

2年前 (2023)

引言本文假设读者已经熟悉文本生成领域波束搜索相关的背景知识，具体可参见博文如何生成文本: 通过 Transformers 用不同的解码方法生成文本。与普通的波束...

2年前 (2023)