🚀 AiPy大模型适配度测评第七期报告

2026 春节档模型大战测评报告

覆盖 17 款主流大模型 · 9 大应用场景
发布时间:2026年3月2日   
CHAPTER 01
📌
背景说明
各位AiPy的粉丝朋友们,新年好!祝大家马年大吉、万事如意!2026年马年春节期间国内大模型厂商掀起了一场史无前例的"春节模型大战",继2025年春节DeepSeek以极致成本与推理能力一战封神,改写全球大模型格局之后,2026年春节AI赛道告别独角戏,字节跳动、阿里、智谱、MiniMax等厂商集体亮剑:智谱GLM-5、MiniMax M2.5、字节Doubao 2.0、阿里Qwen3.5几乎在同一时间窗口密集上线,形成了一场从技术秀到生态战、从参数竞赛到全民落地的"春节档激战"。为了让用户清晰了解近期新发布模型与AiPy的适配度情况,此次测评如期而至,本次测评我们回归前5期测评任务,覆盖9大应用场景(联网搜索、网络爬取、本地分析、软件控制、数据分析、批量处理、Word制作、编程开发、日志分析),来看看各新发布模型在经典老任务上的表现如何。

🏆 测评背景

2026年春节前后,国内外主流大模型厂商集中发布新版本,形成了罕见的"春节档激战"格局,本次测评正是在此背景下展开。

🎯 测评目标

通过标准化的9大应用场景任务,客观评估各模型与AiPy的实际适配能力,为用户选型提供有力参考依据。

📋 测评范围

共纳入17款主流大模型,涵盖国内外头部厂商,包括Google、Anthropic、OpenAI、xAI及智谱、字节、阿里、腾讯等。

CHAPTER 02
📊
测试概况
本次测评共纳入 17 款主流大模型,累计执行 340 次测试任务,与模型实际交互耗时37小时,消耗2600万Tokens,覆盖9大核心应用场景。整体来看,各模型表现分化明显,头部模型成功率明显优于尾部,整体平均成功率达到 75.9%,说明当前主流大模型在AiPy平台上的适配度已达到较高水平。平均执行时间为 385秒,平均消耗tokens为 75,962,不同模型在效率与成本方面差异显著。
17
测试模型数
385s
平均执行时间
75K
平均消耗Tokens
75.9%
整体成功率
📈
各模型综合性能趋势
各模型综合性能趋势
CHAPTER 02 · 综合排名
🏅
综合数据排名表
综合排名以成功率为第一维度,成功率相同时以平均消耗tokens(越少越好)为第二维度进行排序。平均tokens和平均执行时间均采用去除最高值和最低值后的均值,以减少异常值干扰,使数据更具参考价值。🥇Gemini-3-Pro 以 95% 的最高成功率依然稳坐榜首,展现出极强的综合实力。国内模型🥇GLM-5成功率与Claude-Opus-4.5和 Claude-Sonnet-4.6持平,反映出国内模型水平更近一步,已经趋近国际一流水平。
排名 模型名称 成功率 平均消耗Tokens 平均执行时间 模型厂商
🥇 Gemini-3-Pro 95% 36,020 124s Google
🥈 Gemini-3.1-Pro-Preview 90% 28,361 125s Google
🥉 Claude-Opus-4.5 85% 54,479 134s Anthropic
4 Claude-Sonnet-4.6 85% 61,662 223s Anthropic
5 GLM-5 85% 79,811 251s 智谱华章
6 Doubao-Seed-2.0-Pro-260215 80% 46,233 232s 字节跳动
7 GLM-4.7 80% 57,301 218s 智谱华章
8 Kimi-K2.5 80% 75,160 404s 月之暗面
9 GLM-4.6 80% 93,721 296s 智谱华章
10 Deepseek-V3.2 80% 112,802 636s 深度求索
11 Hunyuan-2.0-Thinking-20251109 75% 59,426 257s 腾讯
12 Doubao-Seed-1-8-251228 75% 74,175 293s 字节跳动
13 Grok-4.1-Fast 70% 58,057 104s xAI
14 GPT-5.3-Codex 65% 27,262 406s OpenAI
15 MiniMax-M2.5 65% 69,493 94s 稀宇极智
16 Qwen3.5-Plus 55% 63,927 163s 阿里
17 Qwen3-Max-2026-01-23 45% 91,187 200s 阿里
CHAPTER 03
🇨🇳
国内综合排名表及亮点分析
国内参测模型共 11 款,来自字节跳动、阿里、腾讯、智谱华章、月之暗面、深度求索等头部厂商。整体来看,国内模型表现参差不齐,但头部模型已展现出较强竞争力。GLM-5 以 85% 的成功率领跑国内榜单,成为国内最强选手;Doubao-Seed-2.0-pro 以 80% 的成功率和相对较低的tokens消耗展现出优秀的性价比;GLM-4.7 同样以 80% 成功率入围前三。值得关注的是,阿里系模型 Qwen3-Max 和 Qwen3.5-Plus 在本次测评中表现欠佳,成功率仅为 45% 和 55%,与其他国内模型存在明显差距,有较大提升空间。
排名 模型名称 成功率 平均消耗Tokens 平均执行时间 模型厂商
🥇 GLM-5 85% 79,811 251s 智谱华章
🥈 Doubao-Seed-2.0-Pro-260215 80% 46,233 232s 字节跳动
🥉 GLM-4.7 80% 57,301 218s 智谱华章
4 Kimi-K2.5 80% 75,160 404s 月之暗面
5 GLM-4.6 80% 93,721 296s 智谱华章
6 Deepseek-V3.2 80% 112,802 636s 深度求索
7 Hunyuan-2.0-Thinking-20251109 75% 59,426 257s 腾讯
8 Doubao-Seed-1-8-251228 75% 74,175 293s 字节跳动
9 MiniMax-M2.5 65% 69,493 94s 稀宇极智
10 Qwen3.5-Plus 55% 63,927 163s 阿里
11 Qwen3-Max-2026-01-23 45% 91,187 200s 阿里

🥇 国内冠军:GLM-5

智谱华章旗舰模型 GLM-5 以 85% 成功率夺得国内冠军,在多个任务类型上表现稳定,尤其在编程开发和数据分析场景中表现突出。

⚡ 性价比之星:Doubao-Seed-2.0

字节跳动 Doubao-Seed-2.0-pro 甩掉啰嗦的标签,以 80% 成功率和仅 46K 的平均tokens消耗,成为国内最具性价比的模型选择。

⚠️ 待改进:阿里系模型

Qwen3-Max 和 Qwen3.5-Plus 成功率分别仅为 45%55%,在AiPy适配度上仍有较大提升空间,建议关注后续版本迭代。

CHAPTER 04
🌍
国外综合排名表及亮点分析
国外参测模型共 6 款,来自 Google、Anthropic、OpenAI、xAI 四大顶级AI机构。国外模型整体表现强劲,前两名均由 Google Gemini 系列包揽,Gemini-3-Pro 以 95% 的成功率位居全球总榜第一,Gemini-3.1-Pro-Preview 以 90% 紧随其后,Google 在本次测评中展现出压倒性优势。Anthropic 旗下 Claude-Opus-4.5 和 Claude-Sonnet-4.6 均以 85% 的成功率表现亮眼。相比之下,OpenAI 的 GPT-5.3-Codex 以 65% 的成功率表现略显逊色,经分析主要在中文处理能力上吃了亏,多个任务因中文处理问题不当导致失败,xAI 的 Grok-4.1-Fast 以 70% 居中。
排名 模型名称 成功率 平均消耗Tokens 平均执行时间 模型厂商
🥇 Gemini-3-Pro 95% 36,020 124s Google
🥈 Gemini-3.1-Pro-Preview 90% 28,361 125s Google
🥉 Claude-Opus-4.5 85% 54,479 134s Anthropic
4 Claude-Sonnet-4.6 85% 61,662 223s Anthropic
5 Grok-4.1-Fast 70% 58,057 104s xAI
6 GPT-5.3-Codex 65% 27,262 406s OpenAI

👑 全球冠军:Gemini-3-Pro

Google Gemini-3-Pro 以 95% 的顶级成功率摘得全球总冠军,同时平均tokens消耗仅 36K,兼顾了高性能与高效率。

🚀 Claude系列稳定发挥

Anthropic 旗下两款模型均达到 85% 成功率,Claude-Opus-4.5 tokens消耗更低,综合表现优于 Claude-Sonnet-4.6。

💡 Grok快速响应

xAI 的 Grok-4.1-Fast 平均执行时间仅 104秒,是所有模型中响应最快的之一,但成功率有待提升。

CHAPTER 05
各模型成功率对比分析
从成功率分布来看,17款模型中,达到 85%以上优秀水平的有5款(Gemini-3-Pro、Gemini-3.1-Pro-Preview、Claude-Opus-4.5、Claude-Sonnet-4.6、GLM-5),占比约29%;达到 75-84%良好水平的有7款,占比约41%;处于 65-74%一般水平的有3款;低于65%的有2款,说明仍有部分模型在AiPy平台上的适配度需要进一步优化。整体成功率均值为 75.9%,处于行业中上游水平。
各模型成功率对比
CHAPTER 06
🔢
各模型消耗Tokens对比分析
Tokens消耗量直接影响用户的使用成本,是模型选型的重要参考指标。从数据来看,GPT-5.3-Codex 以平均 27K tokens的极低消耗位居榜首,Gemini-3.1-Pro-Preview 以 28K tokens紧随其后,两者均展现出极高的token效率。而 Deepseek-V3.2 以 113K tokens位居消耗最高,GLM-4.6 以 94K tokens次之。值得注意的是,高tokens消耗并不一定意味着高成功率,性价比需综合考量成功率与消耗量两个维度。
各模型消耗Tokens对比
CHAPTER 07
🗂️
各测试任务类型分布与热力图分析
本次测评覆盖9大任务类型,从热力图中可看出word制作批量处理任务各模型成功率均100%,在AiPy上发挥稳定;日志分析软件控制类任务则只有几个模型表现优秀;各模型在不同任务类型上的成功率分布可见下图,颜色越绿表示成功率越高,越红表示成功率越低,各模型的优势场景和薄弱环节一目了然。
任务类型热力图
📌 深度分析与模型使用建议:

🔍 联网搜索场景: Doubao系列GLM系列表现突出,成功率均为100%,推荐优先选择,在联网搜索任务中兼具高成功率和合理的tokens消耗。

💻 软件控制场景:该场景整体成功率偏低,多数模型在此类任务上存在挑战。建议选择 Gemini-3.1-Pro-PreviewGrok-4.1-Fast,并配合充分的任务描述提示词提升成功率。

📊 本地电脑分析场景:Gemini系列和Claude系列均表现优异。若成本敏感,可考虑 Doubao-Seed-2.0-pro、Hunyuan-2.0-Thinking-20251109、Kimi-K2.5,其在本地电脑分析场景中展现出良好的性价比。

📝 日志分析场景:大文件日志分析中 Gemini系列有出色表现,其余模型均有所失误。

CHAPTER 08
🎯
TOP5多维度性能雷达图
雷达图从执行效率、Token效率、稳定性、成功率、综合评分五大维度,全面呈现综合排名前5的模型(Gemini-3-Pro、Gemini-3.1-Pro-Preview、Claude-Opus-4.5、Claude-Sonnet-4.6、GLM-5)的能力分布。其中:执行效率以平均执行时间归一化衡量(越快越高);Token效率以平均tokens消耗归一化衡量(越省越高);稳定性以执行时间标准差衡量(越稳定越高);综合评分由成功率、执行效率、Token效率、稳定性加权计算得出。从图中可以看出,Gemini-3.1-Pro-Preview 在Token效率和稳定性维度表现最为突出,综合评分最高;Gemini-3-Pro 成功率最高,整体均衡性强;GLM-5 作为国内唯一入选TOP5的模型,稳定性表现优异,但Token效率有待提升。
TOP5雷达图
CHAPTER 09
失败原因分析
本次测评共记录 82次测试失败,通过对失败原因的系统梳理,发现主要集中在以下几类问题:代码质量问题是最主要的失败原因,占比高达48%,说明模型在代码生成和执行层面仍有较大提升空间;任务规划问题以28%的占比位居第二,反映出部分模型在复杂任务的拆解和执行路径规划上存在不足;中文乱码问题以18%占比排名第三,主要集中在文件输出格式和画图处理环节,是国内场景下的特有痛点。
失败原因分析

🐛 代码质量问题 (39次 / 47.6%)

代码逻辑错误、语法问题或依赖缺失导致执行失败,是最主要的失败原因,建议模型加强代码自检能力。

🗺️ 任务规划问题 (23次 / 28.0%)

模型对复杂任务的分解和执行路径规划不合理,导致任务无法完成,需提升多步骤任务的规划能力。

🔤 中文乱码问题 (15次 / 18.3%)

文件读写或输出时出现中文编码问题,在国内使用场景中尤为突出,需模型加强编码处理能力。

🤔 任务理解问题 (3次 / 3.7%)

模型对用户意图理解偏差,导致执行方向错误,建议优化指令理解和意图识别能力。

CHAPTER 10
📋
测试任务分类表(部分题目展示)
以下展示本次测评使用的部分测试题目,涵盖9大任务类型的典型代表性任务。以下为部分题目,完整题目集可联系AiPy官方获取。
序号 测试问题 任务类型
1分析一下我电脑桌面的文件和应用类型,针对混乱的文件或应用根据类型做个详细整理建议放到精美的html中。本地分析
2打开windows系统默认画图软件,控制我鼠标,帮我化一个身材优美的铅笔画女性。软件控制
3使用系统默认邮件客户端,给XXXXXXXXX@qq.com发一封邮件,邮件主题为“test”邮件内容是:“test”,最...软件控制
4分析一下我浏览器的收藏夹和历史访问记录,看看我是一个什么样的人?本地分析
5我有一个10年的打卡记录csv表,有姓名、日期、上班时间、下班时间几列。帮我生成一个1000人(帮我取下名字),从202...数据分析
6帮我推荐10个今天需要关注的股票,把他们的涨跌情况,做成漂亮的html报表写到"gp.html"。网络爬取
7查询我所在地区最近7天的天气,绘制一张天气趋势折线图。联网搜索
8联网搜索“中芯国际”相关信息,做一份精美的公司调研分析报告。联网搜索
9请帮我批量将C:\Users\Administrator\Desktop\0.2.0-ds文件夹下所有文件中涉及的"sk...批量处理
10请给6年级学生出具一份满分100分的数学试卷,要求保存为word格式,附带答案和解析。Word制作
CHAPTER 11
🔬
深度洞察
基于本次340次完整测试数据,从多个维度进行深度分析,提炼出以下关键洞察,供用户在模型选型和使用策略制定时参考。本次测评数据客观反映了当前主流大模型在AiPy平台上的真实表现,各模型均有其独特的优势场景和改进空间。

🏆 性能冠军分析

Gemini-3-Pro 以 95% 的最高成功率摘得本次测评总冠军,同时平均tokens消耗仅 36K,是成功率与效率的完美结合。Google Gemini 系列包揽全球前两名,展现出在AiPy平台上的卓越适配能力。国内冠军 GLM-5 以 85% 的成功率表现亮眼,与国际顶级模型的差距正在快速缩小。

💡 亮点发现

  • Google双雄垄断:Gemini-3-Pro 和 Gemini-3.1-Pro-Preview 包揽全球前两名,且tokens消耗均处于较低水平,性价比突出。
  • 国内黑马GLM-5:智谱GLM-5进步明显,以85%成功率与国际顶级模型并驾齐驱。
  • Claude系列稳定:Anthropic两款模型均达85%,稳定性极强。
  • 速度之王MiniMax:MiniMax-M2.5平均响应仅94秒,适合对速度敏感的场景。

⚠️ 改进建议

  • 代码质量:48%的失败源于代码质量问题,建议厂商重点优化代码生成和自检能力。
  • 中文编码:18%的失败涉及中文乱码,国内模型应优先解决本地化编码问题。
  • 阿里系模型:Qwen系列成功率偏低,建议针对AiPy平台的工具调用场景进行专项优化。
  • 软件控制场景:整体成功率最低,是所有模型共同的薄弱环节,需重点突破。

📊 选型建议矩阵

  • 追求最高成功率:首选 Gemini-3-Pro(95%)
  • 国内最佳选择:GLM-5(85%,国内冠军)
  • 速度优先:MiniMax-M2.5(94秒平均响应)
  • 代码开发场景:Claude-Opus-4.5(85%+强代码能力)
  • 国内性价比:GLM 系列、Doubao-Seed系列、Kimi-K2.5
CHAPTER 12
📝
测评总结

本次聚焦2026年春节档大模型实战,覆盖 17款主流大模型,完成 340次标准化测试,与模型实际交互耗时37小时,消耗2600万Tokens,整体成功率达到 75.9%,展现出当前大模型生态的整体繁荣与进步。

从结果来看,Google Gemini系列以压倒性优势包揽全球前两名,Gemini-3-Pro 以 95% 的成功率成为本次测评的最大赢家,同时兼具较低的tokens消耗,综合实力无可置疑。Anthropic Claude系列稳定发挥,两款模型均达85%,展现出一贯的高水准。国内方面,智谱GLM-5以85%的成功率领跑国内榜单,成为国内大模型在AiPy平台上的最强代言人,字节跳动Doubao系列和月之暗面Kimi-K2.5也有不俗表现。

从失败原因分析来看,代码质量问题(48%)和任务规划问题(28%)是制约模型表现的主要瓶颈,中文乱码问题(18%)则是国内场景下的特有挑战。未来,随着各厂商持续迭代优化,这些问题有望得到逐步解决。

AiPy将持续开展模型测评工作,为广大用户提供最客观、最权威的模型适配度参考。感谢所有关注AiPy测评的粉丝朋友们,我们下期再见!🚀