CHAPTER 01
各位AiPy的粉丝朋友们,新年好!祝大家马年大吉、万事如意!2026年马年春节期间国内大模型厂商掀起了一场史无前例的"春节模型大战",继2025年春节DeepSeek以极致成本与推理能力一战封神,改写全球大模型格局之后,2026年春节AI赛道告别独角戏,字节跳动、阿里、智谱、MiniMax等厂商集体亮剑:智谱GLM-5、MiniMax M2.5、字节Doubao 2.0、阿里Qwen3.5几乎在同一时间窗口密集上线,形成了一场从技术秀到生态战、从参数竞赛到全民落地的"春节档激战"。为了让用户清晰了解近期新发布模型与AiPy的适配度情况,此次测评如期而至,本次测评我们回归前5期测评任务,覆盖9大应用场景(联网搜索、网络爬取、本地分析、软件控制、数据分析、批量处理、Word制作、编程开发、日志分析),来看看各新发布模型在经典老任务上的表现如何。
🏆 测评背景
2026年春节前后,国内外主流大模型厂商集中发布新版本,形成了罕见的"春节档激战"格局,本次测评正是在此背景下展开。
🎯 测评目标
通过标准化的9大应用场景任务,客观评估各模型与AiPy的实际适配能力,为用户选型提供有力参考依据。
📋 测评范围
共纳入17款主流大模型,涵盖国内外头部厂商,包括Google、Anthropic、OpenAI、xAI及智谱、字节、阿里、腾讯等。
CHAPTER 02
本次测评共纳入 17 款主流大模型,累计执行 340 次测试任务,与模型实际交互耗时37小时,消耗2600万Tokens,覆盖9大核心应用场景。整体来看,各模型表现分化明显,头部模型成功率明显优于尾部,整体平均成功率达到 75.9%,说明当前主流大模型在AiPy平台上的适配度已达到较高水平。平均执行时间为 385秒,平均消耗tokens为 75,962,不同模型在效率与成本方面差异显著。
CHAPTER 02 · 综合排名
综合排名以成功率为第一维度,成功率相同时以平均消耗tokens(越少越好)为第二维度进行排序。平均tokens和平均执行时间均采用去除最高值和最低值后的均值,以减少异常值干扰,使数据更具参考价值。🥇Gemini-3-Pro 以 95% 的最高成功率依然稳坐榜首,展现出极强的综合实力。国内模型🥇GLM-5成功率与Claude-Opus-4.5和 Claude-Sonnet-4.6持平,反映出国内模型水平更近一步,已经趋近国际一流水平。
| 排名 |
模型名称 |
成功率 |
平均消耗Tokens |
平均执行时间 |
模型厂商 |
| 🥇 |
Gemini-3-Pro |
95% |
36,020 |
124s |
Google |
| 🥈 |
Gemini-3.1-Pro-Preview |
90% |
28,361 |
125s |
Google |
| 🥉 |
Claude-Opus-4.5 |
85% |
54,479 |
134s |
Anthropic |
| 4 |
Claude-Sonnet-4.6 |
85% |
61,662 |
223s |
Anthropic |
| 5 |
GLM-5 |
85% |
79,811 |
251s |
智谱华章 |
| 6 |
Doubao-Seed-2.0-Pro-260215 |
80% |
46,233 |
232s |
字节跳动 |
| 7 |
GLM-4.7 |
80% |
57,301 |
218s |
智谱华章 |
| 8 |
Kimi-K2.5 |
80% |
75,160 |
404s |
月之暗面 |
| 9 |
GLM-4.6 |
80% |
93,721 |
296s |
智谱华章 |
| 10 |
Deepseek-V3.2 |
80% |
112,802 |
636s |
深度求索 |
| 11 |
Hunyuan-2.0-Thinking-20251109 |
75% |
59,426 |
257s |
腾讯 |
| 12 |
Doubao-Seed-1-8-251228 |
75% |
74,175 |
293s |
字节跳动 |
| 13 |
Grok-4.1-Fast |
70% |
58,057 |
104s |
xAI |
| 14 |
GPT-5.3-Codex |
65% |
27,262 |
406s |
OpenAI |
| 15 |
MiniMax-M2.5 |
65% |
69,493 |
94s |
稀宇极智 |
| 16 |
Qwen3.5-Plus |
55% |
63,927 |
163s |
阿里 |
| 17 |
Qwen3-Max-2026-01-23 |
45% |
91,187 |
200s |
阿里 |
CHAPTER 03
国内参测模型共 11 款,来自字节跳动、阿里、腾讯、智谱华章、月之暗面、深度求索等头部厂商。整体来看,国内模型表现参差不齐,但头部模型已展现出较强竞争力。GLM-5 以 85% 的成功率领跑国内榜单,成为国内最强选手;Doubao-Seed-2.0-pro 以 80% 的成功率和相对较低的tokens消耗展现出优秀的性价比;GLM-4.7 同样以 80% 成功率入围前三。值得关注的是,阿里系模型 Qwen3-Max 和 Qwen3.5-Plus 在本次测评中表现欠佳,成功率仅为 45% 和 55%,与其他国内模型存在明显差距,有较大提升空间。
| 排名 |
模型名称 |
成功率 |
平均消耗Tokens |
平均执行时间 |
模型厂商 |
| 🥇 |
GLM-5 |
85% |
79,811 |
251s |
智谱华章 |
| 🥈 |
Doubao-Seed-2.0-Pro-260215 |
80% |
46,233 |
232s |
字节跳动 |
| 🥉 |
GLM-4.7 |
80% |
57,301 |
218s |
智谱华章 |
| 4 |
Kimi-K2.5 |
80% |
75,160 |
404s |
月之暗面 |
| 5 |
GLM-4.6 |
80% |
93,721 |
296s |
智谱华章 |
| 6 |
Deepseek-V3.2 |
80% |
112,802 |
636s |
深度求索 |
| 7 |
Hunyuan-2.0-Thinking-20251109 |
75% |
59,426 |
257s |
腾讯 |
| 8 |
Doubao-Seed-1-8-251228 |
75% |
74,175 |
293s |
字节跳动 |
| 9 |
MiniMax-M2.5 |
65% |
69,493 |
94s |
稀宇极智 |
| 10 |
Qwen3.5-Plus |
55% |
63,927 |
163s |
阿里 |
| 11 |
Qwen3-Max-2026-01-23 |
45% |
91,187 |
200s |
阿里 |
🥇 国内冠军:GLM-5
智谱华章旗舰模型 GLM-5 以 85% 成功率夺得国内冠军,在多个任务类型上表现稳定,尤其在编程开发和数据分析场景中表现突出。
⚡ 性价比之星:Doubao-Seed-2.0
字节跳动 Doubao-Seed-2.0-pro 甩掉啰嗦的标签,以 80% 成功率和仅 46K 的平均tokens消耗,成为国内最具性价比的模型选择。
⚠️ 待改进:阿里系模型
Qwen3-Max 和 Qwen3.5-Plus 成功率分别仅为 45% 和 55%,在AiPy适配度上仍有较大提升空间,建议关注后续版本迭代。
CHAPTER 04
国外参测模型共 6 款,来自 Google、Anthropic、OpenAI、xAI 四大顶级AI机构。国外模型整体表现强劲,前两名均由 Google Gemini 系列包揽,Gemini-3-Pro 以 95% 的成功率位居全球总榜第一,Gemini-3.1-Pro-Preview 以 90% 紧随其后,Google 在本次测评中展现出压倒性优势。Anthropic 旗下 Claude-Opus-4.5 和 Claude-Sonnet-4.6 均以 85% 的成功率表现亮眼。相比之下,OpenAI 的 GPT-5.3-Codex 以 65% 的成功率表现略显逊色,经分析主要在中文处理能力上吃了亏,多个任务因中文处理问题不当导致失败,xAI 的 Grok-4.1-Fast 以 70% 居中。
| 排名 |
模型名称 |
成功率 |
平均消耗Tokens |
平均执行时间 |
模型厂商 |
| 🥇 |
Gemini-3-Pro |
95% |
36,020 |
124s |
Google |
| 🥈 |
Gemini-3.1-Pro-Preview |
90% |
28,361 |
125s |
Google |
| 🥉 |
Claude-Opus-4.5 |
85% |
54,479 |
134s |
Anthropic |
| 4 |
Claude-Sonnet-4.6 |
85% |
61,662 |
223s |
Anthropic |
| 5 |
Grok-4.1-Fast |
70% |
58,057 |
104s |
xAI |
| 6 |
GPT-5.3-Codex |
65% |
27,262 |
406s |
OpenAI |
👑 全球冠军:Gemini-3-Pro
Google Gemini-3-Pro 以 95% 的顶级成功率摘得全球总冠军,同时平均tokens消耗仅 36K,兼顾了高性能与高效率。
🚀 Claude系列稳定发挥
Anthropic 旗下两款模型均达到 85% 成功率,Claude-Opus-4.5 tokens消耗更低,综合表现优于 Claude-Sonnet-4.6。
💡 Grok快速响应
xAI 的 Grok-4.1-Fast 平均执行时间仅 104秒,是所有模型中响应最快的之一,但成功率有待提升。
CHAPTER 05
从成功率分布来看,17款模型中,达到 85%以上优秀水平的有5款(Gemini-3-Pro、Gemini-3.1-Pro-Preview、Claude-Opus-4.5、Claude-Sonnet-4.6、GLM-5),占比约29%;达到 75-84%良好水平的有7款,占比约41%;处于 65-74%一般水平的有3款;低于65%的有2款,说明仍有部分模型在AiPy平台上的适配度需要进一步优化。整体成功率均值为 75.9%,处于行业中上游水平。
CHAPTER 06
Tokens消耗量直接影响用户的使用成本,是模型选型的重要参考指标。从数据来看,GPT-5.3-Codex 以平均 27K tokens的极低消耗位居榜首,Gemini-3.1-Pro-Preview 以 28K tokens紧随其后,两者均展现出极高的token效率。而 Deepseek-V3.2 以 113K tokens位居消耗最高,GLM-4.6 以 94K tokens次之。值得注意的是,高tokens消耗并不一定意味着高成功率,性价比需综合考量成功率与消耗量两个维度。
CHAPTER 07
本次测评覆盖9大任务类型,从热力图中可看出word制作和批量处理任务各模型成功率均100%,在AiPy上发挥稳定;日志分析和软件控制类任务则只有几个模型表现优秀;各模型在不同任务类型上的成功率分布可见下图,颜色越绿表示成功率越高,越红表示成功率越低,各模型的优势场景和薄弱环节一目了然。
📌 深度分析与模型使用建议:
🔍 联网搜索场景: Doubao系列 和 GLM系列表现突出,成功率均为100%,推荐优先选择,在联网搜索任务中兼具高成功率和合理的tokens消耗。
💻 软件控制场景:该场景整体成功率偏低,多数模型在此类任务上存在挑战。建议选择 Gemini-3.1-Pro-Preview 或 Grok-4.1-Fast,并配合充分的任务描述提示词提升成功率。
📊 本地电脑分析场景:Gemini系列和Claude系列均表现优异。若成本敏感,可考虑 Doubao-Seed-2.0-pro、Hunyuan-2.0-Thinking-20251109、Kimi-K2.5,其在本地电脑分析场景中展现出良好的性价比。
📝 日志分析场景:大文件日志分析中 Gemini系列有出色表现,其余模型均有所失误。
CHAPTER 08
雷达图从执行效率、Token效率、稳定性、成功率、综合评分五大维度,全面呈现综合排名前5的模型(Gemini-3-Pro、Gemini-3.1-Pro-Preview、Claude-Opus-4.5、Claude-Sonnet-4.6、GLM-5)的能力分布。其中:执行效率以平均执行时间归一化衡量(越快越高);Token效率以平均tokens消耗归一化衡量(越省越高);稳定性以执行时间标准差衡量(越稳定越高);综合评分由成功率、执行效率、Token效率、稳定性加权计算得出。从图中可以看出,Gemini-3.1-Pro-Preview 在Token效率和稳定性维度表现最为突出,综合评分最高;Gemini-3-Pro 成功率最高,整体均衡性强;GLM-5 作为国内唯一入选TOP5的模型,稳定性表现优异,但Token效率有待提升。
CHAPTER 09
本次测评共记录 82次测试失败,通过对失败原因的系统梳理,发现主要集中在以下几类问题:代码质量问题是最主要的失败原因,占比高达48%,说明模型在代码生成和执行层面仍有较大提升空间;任务规划问题以28%的占比位居第二,反映出部分模型在复杂任务的拆解和执行路径规划上存在不足;中文乱码问题以18%占比排名第三,主要集中在文件输出格式和画图处理环节,是国内场景下的特有痛点。
🐛 代码质量问题 (39次 / 47.6%)
代码逻辑错误、语法问题或依赖缺失导致执行失败,是最主要的失败原因,建议模型加强代码自检能力。
🗺️ 任务规划问题 (23次 / 28.0%)
模型对复杂任务的分解和执行路径规划不合理,导致任务无法完成,需提升多步骤任务的规划能力。
🔤 中文乱码问题 (15次 / 18.3%)
文件读写或输出时出现中文编码问题,在国内使用场景中尤为突出,需模型加强编码处理能力。
🤔 任务理解问题 (3次 / 3.7%)
模型对用户意图理解偏差,导致执行方向错误,建议优化指令理解和意图识别能力。
CHAPTER 10
以下展示本次测评使用的部分测试题目,涵盖9大任务类型的典型代表性任务。以下为部分题目,完整题目集可联系AiPy官方获取。
| 序号 |
测试问题 |
任务类型 |
| 1 | 分析一下我电脑桌面的文件和应用类型,针对混乱的文件或应用根据类型做个详细整理建议放到精美的html中。 | 本地分析 |
| 2 | 打开windows系统默认画图软件,控制我鼠标,帮我化一个身材优美的铅笔画女性。 | 软件控制 |
| 3 | 使用系统默认邮件客户端,给XXXXXXXXX@qq.com发一封邮件,邮件主题为“test”邮件内容是:“test”,最... | 软件控制 |
| 4 | 分析一下我浏览器的收藏夹和历史访问记录,看看我是一个什么样的人? | 本地分析 |
| 5 | 我有一个10年的打卡记录csv表,有姓名、日期、上班时间、下班时间几列。帮我生成一个1000人(帮我取下名字),从202... | 数据分析 |
| 6 | 帮我推荐10个今天需要关注的股票,把他们的涨跌情况,做成漂亮的html报表写到"gp.html"。 | 网络爬取 |
| 7 | 查询我所在地区最近7天的天气,绘制一张天气趋势折线图。 | 联网搜索 |
| 8 | 联网搜索“中芯国际”相关信息,做一份精美的公司调研分析报告。 | 联网搜索 |
| 9 | 请帮我批量将C:\Users\Administrator\Desktop\0.2.0-ds文件夹下所有文件中涉及的"sk... | 批量处理 |
| 10 | 请给6年级学生出具一份满分100分的数学试卷,要求保存为word格式,附带答案和解析。 | Word制作 |
CHAPTER 11
基于本次340次完整测试数据,从多个维度进行深度分析,提炼出以下关键洞察,供用户在模型选型和使用策略制定时参考。本次测评数据客观反映了当前主流大模型在AiPy平台上的真实表现,各模型均有其独特的优势场景和改进空间。
🏆 性能冠军分析
Gemini-3-Pro 以 95% 的最高成功率摘得本次测评总冠军,同时平均tokens消耗仅 36K,是成功率与效率的完美结合。Google Gemini 系列包揽全球前两名,展现出在AiPy平台上的卓越适配能力。国内冠军 GLM-5 以 85% 的成功率表现亮眼,与国际顶级模型的差距正在快速缩小。
💡 亮点发现
- Google双雄垄断:Gemini-3-Pro 和 Gemini-3.1-Pro-Preview 包揽全球前两名,且tokens消耗均处于较低水平,性价比突出。
- 国内黑马GLM-5:智谱GLM-5进步明显,以85%成功率与国际顶级模型并驾齐驱。
- Claude系列稳定:Anthropic两款模型均达85%,稳定性极强。
- 速度之王MiniMax:MiniMax-M2.5平均响应仅94秒,适合对速度敏感的场景。
⚠️ 改进建议
- 代码质量:48%的失败源于代码质量问题,建议厂商重点优化代码生成和自检能力。
- 中文编码:18%的失败涉及中文乱码,国内模型应优先解决本地化编码问题。
- 阿里系模型:Qwen系列成功率偏低,建议针对AiPy平台的工具调用场景进行专项优化。
- 软件控制场景:整体成功率最低,是所有模型共同的薄弱环节,需重点突破。
📊 选型建议矩阵
- 追求最高成功率:首选 Gemini-3-Pro(95%)
- 国内最佳选择:GLM-5(85%,国内冠军)
- 速度优先:MiniMax-M2.5(94秒平均响应)
- 代码开发场景:Claude-Opus-4.5(85%+强代码能力)
- 国内性价比:GLM 系列、Doubao-Seed系列、Kimi-K2.5
CHAPTER 12
本次聚焦2026年春节档大模型实战,覆盖 17款主流大模型,完成 340次标准化测试,与模型实际交互耗时37小时,消耗2600万Tokens,整体成功率达到 75.9%,展现出当前大模型生态的整体繁荣与进步。
从结果来看,Google Gemini系列以压倒性优势包揽全球前两名,Gemini-3-Pro 以 95% 的成功率成为本次测评的最大赢家,同时兼具较低的tokens消耗,综合实力无可置疑。Anthropic Claude系列稳定发挥,两款模型均达85%,展现出一贯的高水准。国内方面,智谱GLM-5以85%的成功率领跑国内榜单,成为国内大模型在AiPy平台上的最强代言人,字节跳动Doubao系列和月之暗面Kimi-K2.5也有不俗表现。
从失败原因分析来看,代码质量问题(48%)和任务规划问题(28%)是制约模型表现的主要瓶颈,中文乱码问题(18%)则是国内场景下的特有挑战。未来,随着各厂商持续迭代优化,这些问题有望得到逐步解决。
AiPy将持续开展模型测评工作,为广大用户提供最客观、最权威的模型适配度参考。感谢所有关注AiPy测评的粉丝朋友们,我们下期再见!🚀