AI大模型首战高考:阿里通义、GPT-4o等展现语言天赋,数学能力成短板
在智能科技领域的一次突破性尝试中,上海人工智能实验室的司南评测体系OpenCompass近日公布了首个针对大模型的高考“语数外”全卷能力测试结果。此次评测选取了六个开源模型及OpenAI的GPT-4o,以全国新课标I卷为蓝本,进行了一场别开生面的“高考”。
据了解,参与评测的所有开源模型均在高考前完成开源,确保了评测的“闭卷”性质。此外,成绩的评判工作交由具有丰富高考评卷经验的教师负责,使得这一评测结果更加贴近真实的高考阅卷标准。
评测结果显示,阿里通义千问Qwen2-72B、OpenAI的GPT-4o及书生·浦语2.0文曲星(InternLM2-20B-WQX)在众多模型中脱颖而出,成为本次大模型高考的前三甲。其中,阿里通义千问Qwen2-72B以72.1%的得分率位列第一,GPT-4o和书生·浦语2.0文曲星分别以70.5%和70.4%的得分率紧随其后。
在“语言”类科目中,大部分模型均展现出了不俗的实力。语文科目的平均得分率达到了67%,英语更是高达81%,显示出这些大模型在理解和运用语言方面的天赋。然而,在数学科目上,所有模型均遭遇了不小的挑战。平均得分率仅为36%,即便是表现最好的InternLM2-20B-WQX也仅获得了75分,远未达到及格水平。
此次评测结果的发布引发了广泛关注。专家指出,尽管这些大模型在理解和运用语言方面取得了显著进步,但在数学等需要逻辑推理和抽象思维的领域仍存在较大提升空间。这也为未来大模型的发展指明了方向,即需要更加注重跨学科知识的融合和训练。
同时,这一评测结果也引发了关于人工智能与人类智能之间差异的讨论。尽管大模型在某些方面已经能够与人类相媲美,但在面对复杂问题时仍显得力不从心。这也提醒我们,在追求技术进步的同时,也需要关注人类智能的独特性和不可替代性。
总的来说,这次大模型高考全卷评测不仅为我们揭示了人工智能在语言理解和应用方面的新进展,也为我们指明了未来人工智能发展的方向。随着技术的不断进步和应用场景的不断拓展,我们有理由相信人工智能将在更多领域展现出其独特的魅力和价值。
关于文章版权的声明:
https://news.softunis.com/25369.html 文章来自软盟智能资讯站
若非本站原创的文章,特别作如下声明:
本文刊载所有内容仅供提供信息交流和业务探讨而非提供法律建议目的使用,不代表任何监管机构的立场和观点。不承担任何由于内容的合法性及真实性所引起的争议和法律责任。
凡注明为其他媒体来源的信息,均为转载,版权归版权所有人所有。
如有未注明作者及出处的文章和资料等素材,请版权所有者联系我们,我们将及时补上或者删除,共同建设自媒体信息平台,感谢你的支持!