Loading...

LLMEval-3:一个专业知识能力评测系统,提供相对得分和绝对得分排行榜,以及各学科得分排行榜。用户可以通过该系统评估不同模型在专业知识能力上的表现

AI大模型2个月前发布 阿强
26 0

LLMEval-3是一个专业知识能力评测系统,涵盖了13个学科门类、50余个二级学科的约20W道标准生成式问答题目。该系统使用-4 Turbo作为评测基准,提供相对得分和绝对得分排行榜,以及各学科得分排行榜。

LLMEval3有哪些功能?

1. 提供相对得分和绝对得分排行榜:用户可以查看各个相对于 Turbo的得分情况,以及各个模型的绝对得分。

2. 提供各学科得分排行榜:用户可以查看各个模型在不同学科中的得分情况,了解模型在不同学科领域的表现。

应用场景:

1. 学术研究:研究人员可以使用LLMEval-3评测系统来评估不同模型在专业知识能力上的表现,为学术研究提供参考。

2. 教育培训:教育机构可以使用LLMEval-3评测系统来评估教学内容和教学方法的有效性,提供更好的教育培训服务。

LLMEval-3:http://llmeval.com/index

LLMEval-3:一个专业知识能力评测系统,提供相对得分和绝对得分排行榜,以及各学科得分排行榜。用户可以通过该系统评估不同模型在专业知识能力上的表现插图
    © 版权声明

    相关文章

    暂无评论

    暂无评论...