SuperCLUE发布的测试基准你看了吗?讯飞星火认知大模型国内第一_测评_能力_榜单

5月6日,科大讯飞正式发布了讯飞星火认知大模型,国内的认知智能大模型再添悍将。而紧随其后,5月9日,中文通用大模型综合性评测基准 SuperCLUE也发布,并随之公布了首个测评榜单,让广大用户更直观的了解国内外当下主流的GPT的中文测试表现

5月6日,科大讯飞正式发布了讯飞星火认知大模型,国内的认知智能大模型再添悍将。而紧随其后,5月9日,中文通用大模型综合性评测基准 SuperCLUE也发布,并随之公布了首个测评榜单,让广大用户更直观的了解国内外当下主流的GPT的中文测试表现等,其中刚刚发布的讯飞星火认知大模型拿下国内第一。

多维度、多能力中文测评

据了解,SuperCLUE测试基准是针对中文可用的通用大模型的一个评测基准,主要测试了中文大模型和国际的比较情况、在不同任务上有何表现以及和人类的比较情况。从三大能力测试,包括了语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等 10 项常见的代表性基础能力;涵盖了从数学、物理、地理到社会科学等 50 多项专业能力;以及中文成语、诗歌、文学、字形等 10 项中文特点能力,多维度的测试各大中文通用模型的表现。

讯飞星火认知大模型国内第一

在首次公布的测试榜单之中,人类的测评表现极佳,基础能力(98%)+中文特性(95%),水准极高,紧随其后的是GPT-4,也是众多测评大模型中排名第一的存在。在国内排名中,讯飞星火认知大模型位列总榜单、基础能力榜单和中文特性榜单构成三榜第一,总分第三。在讯飞星火认知大模型成果发布会上,进行了现场实测,讯飞星火准确理解、推理,并根据掌握的知识进行解答,现场引发阵阵掌声。而从中可以看出,讯飞星火表现“很聪明”,不少网友表示感到惊艳、效果超预期。这也并非一朝一夕所得,科大讯飞深耕AI 领域已久,仅过去一年在认知智能领域就有10+项世界冠军,此次评测第一实至名归。

综合来看,国内第一的讯飞星火认知大模型表现很“智慧”,而且SuperCLUE测试基准也表示会紧随步伐,每月发布最新的测评结果,大家可进入官网查看。

本文来自投稿,不代表长河网立场,转载请注明出处: http://www.changhe99.com/a/80wVP7ZL6z.html

(0)

相关推荐