站点图标 AIHunt | 几百个AI工具导航,国内外AI工具导航大全

让 LLM 来评判 | 设计你自己的评估 prompt

内容目录

设计你自己的评估 prompt

这是 LLM 来评判 系列文章的第三篇,敬请关注系列文章:

  • 基础概念
  • 选择 LLM 评估模型
  • 设计你自己的评估 prompt
  • 评估你的评估结果
  • 奖励模型相关内容
  • 技巧与提示

通用 prompt 设计建议

我总结的互联网上通用 prompt 的通用设计原则如下:

Prompt 书写灵感可以参考 MixEvalMTBench 的 prompt 模板。

其他要点:

提升评估准确性

可以通过以下方式或技术来提升评估准确性 (有可能会增加成本):

注:如要减少模型偏见,可以参考社会学中的问卷设计,然后根据使用场景来书写 prompt。如想使用模型来替代人工评估,可以设计类似的评价指标:如计算标注员一致性,使用正确的问卷方法来减少偏见等。

不过在实际应用中,大多数人并不需要完全可复现且高质量无偏的评估,快速且略显粗糙的 prompt 就能满足需求。(只要知悉使用后果,这种情况也是能接受的)。


英文原文: https://raw.githubusercontent.com/huggingface/evaluation-guidebook/refs/heads/main/translations/zh/contents/model-as-a-judge/designing-your-evaluation-prompt.md

原文作者: clefourrier

译者: SuSung-boy

审校: adeenayakup

赞赏

微信赞赏支付宝赞赏

退出移动版