SuperCLUE:一个中文通用大模型综合性测评基准,包含10项基础能力,涵盖语言理解、对话、生成、知识与百科、代码、逻辑与推理、计算、角色扮演和安全等多个方面
SuperCLUE是一个中文通用大模型综合性测评基准,旨在评估中文大模型的效果情况。它涵盖了语言理解与生成、知识理解与应用、专业能力和环境适应与安全性等四个能力象限,细化为10项基础能力。
SuperCLUE有哪些功能?
1. 语言理解与抽取:能够理解并解析输入的文字信息的含义。
2. 闲聊:与用户进行自由形式、非特定目标的对话。
3. 上下文对话:理解并记住前面的对话信息,保持连贯性。
4. 生成与创作:创造新的文本内容,如文章、文案、短故事、诗歌。
5. 知识与百科:提供准确、详细和最新的知识信息。
6. 代码:理解和生成编程代码。
7. 逻辑与推理:理解和应用逻辑原则进行推理。
8. 计算:执行数学运算,解决数学问题。
9. 角色扮演:在特定的模拟环境或情景中扮演一个角色。
10. 安全:防止生成可能引起困扰或伤害的内容。
应用场景:
SuperCLUE可以用于评估中文大模型在多个领域的语言理解和生成能力,包括对话系统、知识问答、文本生成等任务。它可以帮助研究人员和开发者了解不同模型在不同能力上的表现,从而选择合适的模型应用于特定场景。
SuperCLUE:https://www.cluebenchmarks.com/
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...