国产大模型再出圈,QWen2.5-Max编程能力获得评测No1

  1. 榜单结果展示
  2. 实际测试
    1. 编程测试
    2. 写作测试
    3. 计划整理
    4. 再来一道AI都容易做错的题
    5. 生成图片
  3. PK总结

不是吧,你的DeepSeek还在显示“服务器繁忙,请稍后再试”吗?

AI的发展太快了,DeepSeek的热度还没下去,国产大模型QWen2.5-Max在编程能力评测中获得No1,数学能力排行第二,并在多个评测中表现优异。

最主要的它也是免费,而且能力超过了DeepSeekV3模型。

QWen2.5-Max 它是阿里通义千问推出的MoE大模型。它是MoE模型,也就是说它不是推理模型,而是混合专家模型。和DeepSeek-R1的推理模型不同,而是和DeepSeek-V3模型一样。

榜单结果展示

首先它在 匿名盲测 的 Chatbot Arena(聊天机器人竞技场)评测榜单中,获得了第七的位置,DeepSeek-V3是第八。虽然是第七,但在它上面都是一些满血版的推理模型。而且它在编程和数学能力上目前排名第一。

Chatbot Arena 排名

排名地址:https://lmarena.ai/?leaderboard

对于程序员更利好的消息是,QWen2.5-Max 在编程能力上获得了第一名,在数学能力上获得了第二名。

编程能力评测

也就是说各位程序员现在就能免费使用世界上最好的编程大模型帮助我们编写代码了。

实际测试

榜单结果是不错,但实际效果怎么样呢?我们就来测试一下。

这次就来个国产大模型的PK,出战的除了QWen2.5-Max,还有DeepSeek-V3。注意这里我们不评测推理模型,只评测混合专家模型。因为推理模型,其实就是专家模型加上推理能力,也就说QWen也是有能力再造出一个推理模型的,我估计阿里很快就会出一个以QWen为基础的推理模型的产品。

使用的方法很简单,直接登录官网就可以使用,界面也改变了,变成了英文。

| 网址是:https://chat.qwenlm.ai/

编程测试

我们第一个测试题目是编程能力的,题目是:

用html+css+js写一个页面,“JSPang”几个字母出现3D效果,并有字的翻转动画,注意颜色搭配。把代码综合到一个页面,能直接运行。

结果在视频中展示。注意这里我们只使用第一次生成结果,不再进行任何修改。

写作测试

我们第二个测试题目是写作能力的,题目是:

我有一个农村的小院,请帮我写一篇300字左右的散文,描述一下小院的美景。最后要有一首诗,模仿《终南别业》。

结果在视频中展示。注意这里我们只使用第一次生成结果,不再进行任何修改。

QWen写作测试

DeepSeek写作测试

你觉的这个写作能力怎么样呐?可以在评论区。

计划整理

最后我们来做一个计划整理的测试,题目是:

我准备三月份带老妈去九寨沟旅游7天,请帮我整理一下计划,包括景点、住宿、交通、饮食等。
注意,我住在濮阳,要在成都停留两天游玩,最后返回濮阳。
要求按天形成表格,表格要包含日期、景点、住宿、交通、饮食。

结果我们在视频中展示。

再来一道AI都容易做错的题

最后我们再来一道AI都容易做错的题,题目是:

Rearrangement 这个单词中有几个r?

结果我们在视频中展示。

生成图片

目前QWen2.5-Max 还不能生成图片,我们也来是一个。

一条小狗和一个女孩,小狗的品种是德牧。地点是公园,有草坪和湖水,近处开着牵牛花。阳光很灿烂,他们在溪边玩耍。

结果我们在视频中展示。

QWen生图

PK总结

通过测试,其实我们不难看出国产大模型的水平已经非常不错了,无论是在编程能力,还是在写作能力上,虽然我个人感觉DeepSeek得能力更好一点,但QWen的编程能力也非常强。
所以当你用DeepSeek卡死的时候,不妨用QWen来救急,主要它也是完全免费使用的。


转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 web0432@126.com