AiPy大模型专项能力测评报告

AI大模型能力横向测评
控制鼠标画汽车

不同模型在同类型任务中的真实表现

📅 发布时间:2026-04-24 🔬 测评工具:AiPy Pro V 1.1.0 📊 参与模型:15个
📋测评背景与方法

AiPy通用能力测评为粉丝通用任务模型选型提供了重要参考,为进一步帮助专业用户选择专项任务的模型,AiPy模型测评团队在通用能力测评基础上启动了专项能力测评工作,专项能力将聚焦一类任务或能力进行针对性测评,如操作本地电脑、数据分析、UI识别与创作、编程开发、长指令遵循任务等,本期测评基于「本地电脑操作画图能力」,开展面向通用人工智能模型工具操控能力的横向对标测试。

🎯 基准任务:打开Windows画图软件,控制鼠标画一个汽车。

测评依托 AiPy Agent 智能评测框架,采用统一提示工程驱动各参与模型,不使用多模态能力让模型在自主决策状态下完成端到端的工具链调用与视觉构建流程。该任务虽形式简洁,却深度考察了模型的通识理解能力(目标对象的几何表征、结构约束、细节语义)、序贯决策与规划执行能力(工具定位、操作编排、实时反馈调节)的双重核心竞争力。

评估维度:基于任务完成度进行二分类判定——成功完整构建可识别的目标视觉表征即为通过;仅完成环境启动而未进行有效创作或输出不可辨识的形态,均判定为失败。

📊测评总览
15
测评模型数
137s
平均执行时间
58118
平均消耗Tokens
47%
整体成功率
🇺🇸 国外模型成功率67%
🇨🇳 国内模型成功率42%
📈 总体通过率47%
🎨各模型画图效果展示
Doubao-Seed-2.0-Pro-260215 成功
Doubao-Seed-2.0-Pro-260215
耗时53s
Tokens31,188
GLM-5.1 成功
GLM-5.1
耗时62s
Tokens9,168
GLM-5 成功
GLM-5
耗时79s
Tokens41,769
Gemini-3.1-Pro-Preview 成功
Gemini-3.1-Pro-Preview
耗时100s
Tokens29,258
Qwen3.6-Plus 成功
Qwen3.6-Plus
耗时169s
Tokens24,048
Claude-Sonnet-4.6 成功
Claude-Sonnet-4.6
耗时232s
Tokens271,707
Hy3-preview 成功
Hy3-preview
耗时639s
Tokens132,973
MiniMax-M2.5 失败
MiniMax-M2.5
耗时65s
Tokens40,116
⚠️ 画的不像
DeepSeek-v4-Flash 失败
DeepSeek-v4-flash
耗时66s
Tokens54,306
⚠️ 画的不像
Hunyuan-2.0-Thinking-20251109 失败
Hunyuan-2.0-Thinking-20251109
耗时92s
Tokens16,229
⚠️ 画的不像
Kimi-k2.5 失败
Kimi-k2.5
耗时114s
Tokens25,428
⚠️ 画的不像
GPT-5.2 失败
GPT-5.2
耗时137s
Tokens53,155
⚠️ 没有正确定位画布
DeepSeek-v4-Pro 失败
DeepSeek-v4-Pro
耗时160s
Tokens37,367
⚠️ 画的不像
Mimo-v2-omni 失败
Mimo-v2-omni
耗时206s
Tokens55,916
⚠️ 画的不像
DeepSeek-v3.2 失败
DeepSeek-V3.2
耗时879s
Tokens123,528
⚠️ 画的不像
📋模型测评数据表
# 模型 结果 耗时 Tokens消耗 厂商 国家
1 Doubao-Seed-2.0-Pro-260215 成功 53s 31,188 字节跳动
2 GLM-5.1 成功 62s 9,168 智谱华章
3 GLM-5 成功 79s 41,769 智谱华章
4 Gemini-3.1-Pro-Preview 成功 100s 29,258 Google
5 Qwen3.6-Plus 成功 169s 24,048 阿里
6 Claude-Sonnet-4.6 成功 232s 271,707 Anthropic
7 Hy3-preview 成功 639s 132,973 腾讯
8 MiniMax-M2.5 失败 65s 40,116 稀宇极智
9 DeepSeek-v4-Flash 失败 66s 54,306 深度求索
10 Hunyuan-2.0-Thinking-20251109 失败 92s 16,229 腾讯
11 Kimi-k2.5 失败 114s 25,428 月之暗面
12 GPT-5.2 失败 137s 53,155 OpenAI
13 DeepSeek-v4-Pro 失败 160s 37,367 深度求索
14 Mimo-v2-omni 失败 206s 55,916 小米
15 DeepSeek-V3.2 失败 879s 123,528 深度求索
🔍深度分析

🌍 世界通识理解差距

这道题的本质是考验模型对"汽车长什么样"的通识理解:车身轮廓、车轮比例、对称结构、车窗位置……这些是人类从小习得的常识。

美国顶级模型(Gemini、Claude)在海量多模态数据训练下,形成了对真实世界的立体认知,虽GPT-5.2因没有定位对画布没画成功,但也能看出来小车基本形状其实是正确的;而部分国内模型因训练数据侧重文本/代码场景,对空间几何的理解存在明显短板,出现部分画图错乱及轮子竟然都不是圆形的情况。

最新发布模型中Hy3-preview成功完成任务,相比上版本提升明显,但DeepSeek v4系列(Pro和Flash)虽在执行效率上有显著提升(相比v3.2的879s,Pro仅需160s,Flash仅66s),画图效果仍不理想,反映出模型优化方向与通识理解能力之间的平衡仍需调整。

⚡ 效率与成本对比

从数据看,成功完成任务的模型中:

  • Doubao-Seed-2.0-Pro-260215:仅53s,31K tokens,性价比最高,但不够精致 ⚡
  • GLM-5.1:62s,9K tokens,耗时最短、token最省,国内效果最佳,升级后GLM5的轮子不圆,车窗位置不对的问题都改良了 🏆
  • Gemini-3.1-Pro-Preview:100s,29K tokens,稳定高效
  • Qwen3.6-Plus:169s,24K tokens,国内第三成功
  • Claude-Sonnet-4.6:232s,271K tokens,最"话痨"但效果好
  • Hy3-preview:639s,132K tokens,虽然耗时最长,但成功完成画图任务

💰 训练成本的本质

世界通识需要大量训练数据,而数据采购、清洗、标注需要巨额资金;训练本身需要算力卡和电力,同样需要钱。

  • 部分国内模型采用专用数据训练
  • 通过蒸馏获得单领域能力
  • 适合编程、写作等窄场景,但丢失世界通识
  • 这是性价比选择,不是技术落后,但长期仍需加强
💡测评结论

通过这个简单但直观的测试,我们可以清晰地看到:美国顶级模型(Gemini、Claude)在世界通识理解上具有明显优势,能够将对汽车外形的抽象认知转化为具体的鼠标操作序列。

国内模型中,Doubao-Seed-2.0-Pro-260215、GLM-5.1、GLM-5、Qwen3.6-Plus 和 Hy3-preview 表现亮眼,均成功完成任务;其中 Doubao-Seed-2.0-Pro-260215 以最短耗时(53s)展现了执行效率,GLM-5.1 以仅 9K tokens 的超低消耗夺得性价比第一,同时画图效果也是是本次测评中国内模型的最佳表现,Hy3-preview 也成功完成了画图任务。

部分国内模型(DeepSeek-V3.2、DeepSeek-v4-Pro、DeepSeek-v4-Flash、Kimi-k2.5、MiniMax-M2.5、Hunyuan-2.0-Thinking、Mimo-v2-omni)在此类需要空间理解和通识推理的任务上表现不佳,反映出训练数据侧重和优化方向的差异——这不是简单的技术差距,而是训练策略选择的结果,期待后续的持续优化。值得注意的是,DeepSeek发布的v4系列Pro和Flash版本在此任务中均未成功,相比v3.2版本耗时大幅缩短(160s和66s vs 879s),但画图效果仍有提升空间。

我们在测评中深刻体会到:「部分国内的大模型缺乏对世界通识的理解。」这是一个值得行业深思的问题。