站点图标 AIHunt | 几百个AI工具导航,国内外AI工具导航大全

人工评估 | 基础概念

内容目录

基础概念

这是 人工评估 系列文章的第一篇《基础概念》,全系列包括:

  • 基础概念
  • 人工标注员
  • 技巧与提示

什么是人工评估?

人工评估是指让人类评价模型输出回答的好坏。
本文讨论的都是后验评估,即模型已经完成训练,给定一个任务让人类进行评估。

系统化评估

系统化的人工评估主要有 3 种方式:

如果你手头 没有现成的数据集,但还是想测试一些模型的能力,可以采用人工评估:提供一个任务说明和打分指南 (例如:尝试与模型交互,迫使模型输出不当语言,即包含冒犯性、歧视性、暴力等。如果模型输出了不当语言,则得分为 0,反之为 1。),以及可供交互的测试模型,然后就可以让标注员人工操作并评分,同时列出评分理由。

如果你手头 已经有数据集 (例如 收集了一组 prompt,并确保这些 prompt 不会迫使模型输出不当回答),可以自行将 prompt 输入模型得到输出,然后将输入 prompt、输出回答、打分指南一起提供给标注员评估 (如果模型意外输出不当,则得分为 0,反之为 1)。

如果你手头 既有数据集也有评分结果,可以让人工标注员通过 错误注释 的方法 (这种方法同样可以作为评估系统,适用于上面的情况) 来对评估进行审查。在测试新评估系统时,这一步非常重要,但是技术测层面属于对评估系统的评估,因此略微超出本文的讨论范围。

注:

非正式评估

基于人类的评估方法还有两种不那么正式的方法:

Vibes 检查 是一种使用非公开数据进行人工评估的方法,用来在多个场景用例 (如代码编程和文学创作等) 上测试来把握整体效果。评估结果通常会被当作轶事证据而分享在 Twitter 和 Reddit 上,不过它们很容易受到主观认知偏差的影响 (换句话说,人们往往只相信自己相信的结果)。尽管如此,这些结果依然能作为 你自己测试的一个不错起点

Arenas 是一种众包人工评估的方法,用来给多个模型表现排名。
一个知名的例子是 LMSYS 聊天机器人 Arena 评估, 社区用户通过与多个模型对话来分辨孰优孰劣并投票。总的投票结果将汇总为 Elo 排名 (这场多个模型比赛的排名),来评判出 “最优模型”。

人工评估的优劣势

优势:

劣势:

缺点:

非正式人工评估

优势:

劣势:

原文链接: https://github.com/huggingface/evaluation-guidebook/blob/main/contents/human-evaluation/basics.md

译者: SuSung-boy, clefourrier, adeenayakup

赞赏

微信赞赏支付宝赞赏

退出移动版