排名 | 模型名称 | 成功率 | 平均执行时间 | 平均消耗Tokens | 综合得分 | 模型厂商 | 地区 |
---|---|---|---|---|---|---|---|
🥇1 | Claude Sonnet 4 | 80% | 255s | 110604 | 75 | Anthropic | |
🥈2 | Kimi-K2 | 70% | 293s | 34764 | 70 | 月之暗面 | |
🥉3 | Claude Sonnet 3.7 | 70% | 285s | 58466 | 69 | Anthropic | |
4 | GLM-4.5 | 70% | 298s | 71222 | 68 | 智谱华章 | |
5 | Gemini 2.5 Pro | 60% | 142s | 37546 | 62 | ||
6 | Qwen3-Coder-Plus | 60% | 77s | 58375 | 61 | 阿里 | |
7 | Qwen3-235B-A22B-Instruct-2507 | 60% | 238s | 57395 | 60 | 阿里 | |
8 | Doubao-Seed-1.6 | 60% | 418s | 55915 | 59 | 字节跳动 | |
9 | Grok 4 | 50% | 276s | 49499 | 51 | xAI | |
10 | DeepSeek-V3 | 40% | 198s | 47539 | 43 | 深度求索 | |
11 | ERNIE-X1-Turbo-32K | 40% | 644s | 85055 | 37 | 百度 | |
12 | GLM-4.5V | 10% | 35s | 8528 | 19 | 智谱华章 |
国内排名 | 模型名称 | 成功率 | 综合得分 | 模型厂商 |
---|---|---|---|---|
🥇1 | Kimi-K2 | 70% | 70 | 月之暗面 |
🥈2 | GLM-4.5 | 70% | 68 | 智谱华章 |
🥉3 | Qwen3-Coder-Plus | 60% | 61 | 阿里 |
4 | Qwen3-235B-A22B-Instruct-2507 | 60% | 60 | 阿里 |
5 | Doubao-Seed-1.6 | 60% | 59 | 字节跳动 |
6 | DeepSeek-V3 | 40% | 43 | 深度求索 |
7 | ERNIE-X1-Turbo-32K | 40% | 37 | 百度 |
8 | GLM-4.5V | 10% | 19 | 智谱华章 |
国外排名 | 模型名称 | 成功率 | 综合得分 | 模型厂商 |
---|---|---|---|---|
🥇1 | Claude Sonnet 4 | 80% | 75 | Anthropic |
🥈2 | Claude Sonnet 3.7 | 70% | 69 | Anthropic |
🥉3 | Gemini 2.5 Pro | 60% | 62 | |
4 | Grok 4 | 50% | 51 | xAI |
序号 | 提示词 | 任务类型 |
---|---|---|
1 | 查询我所在地区最近7天的天气,绘制一张天气趋势折线图。 | 图表生成类 |
2 | 请给6年级学生出具一份满分100分的数学试卷,要求保存为word格式,附带答案和解析。 | 生成创作类 |
3 | XX文件是网站访问日志,请先对日志字段进行分析,识别URL、IP、UA等关键信息,生成一份精美的HTML网站日志分析报告。 | 大文件处理 |
4 | 使用系统默认邮件客户端,给XXX发一封邮件,邮件主题为“test”邮件内容是:“test”,最后一步发送时控制键盘使用快捷键ctrl+enter发送。 | 软件控制类 |
5 | XXX是云防御黑白名单配置的API示例脚本,请帮我包装其中的功能为一个云防御配置工具.exe的程序保存到桌面。 | 工具制造类 |
6 | 请帮我批量将文件夹下所有文件中涉及的"sk-"密钥信息脱敏,并将脱敏的具体详情输出给我核对。 | 批量任务类 |
7 | 联网搜索“中芯国际”相关信息,做一份精美的公司调研分析报告。 | 联网搜索类 |
8 | 读取我的电脑浏览器的收藏夹,检查一下哪个链接失效了或者打不开,将建议清理的链接和原因输出为一份《浏览器收藏夹清理清单.xlsx》。 | 本地分析类 |
9 | 分析SQLite数据库中公司设备库存情况。 | 数据分析类 |
10 | 访问https://www.AiPyAiPy.com/首页,爬取AiPy和manus的区别相关内容并总结。 | 网络爬取类 |
本次测评展现了大模型技术在实战场景的进阶突破:12 款主流模型在十大核心能力维度的比拼中,整体成功率56%,印证了技术从实验室向产业化的跨越。
国外模型以 Claude 系列为代表,凭借复杂推理与多步骤任务连贯性的优势领跑,Claude Sonnet 4 以 80% 成功率和 75 分综合得分稳居榜首;国内模型则在中文理解与本土化适配中凸显特色,Kimi-K2 以 70% 成功率成为国产标杆,GLM-4.5紧随其后,Qwen3系列和豆包也表现良好。从性能看,模型分化明显:既有 Claude 系列的全能表现,也有 Qwen3-Coder-Plus的效率优势。但代码质量、任务理解偏差仍是共性短板,本次测评任务中未出现满分选手,提示大模型技术需在实战性复杂任务上持续突破。