AiPy大模型适配度测评第七期报告

CHAPTER 01

📌

背景说明

各位AiPy的粉丝朋友们，新年好！祝大家马年大吉、万事如意！2026年马年春节期间国内大模型厂商掀起了一场史无前例的"春节模型大战"，继2025年春节DeepSeek以极致成本与推理能力一战封神，改写全球大模型格局之后，2026年春节AI赛道告别独角戏，字节跳动、阿里、智谱、MiniMax等厂商集体亮剑：智谱GLM-5、MiniMax M2.5、字节Doubao 2.0、阿里Qwen3.5几乎在同一时间窗口密集上线，形成了一场从技术秀到生态战、从参数竞赛到全民落地的"春节档激战"。为了让用户清晰了解近期新发布模型与AiPy的适配度情况，此次测评如期而至，本次测评我们回归前5期测评任务，覆盖9大应用场景（联网搜索、网络爬取、本地分析、软件控制、数据分析、批量处理、Word制作、编程开发、日志分析），来看看各新发布模型在经典老任务上的表现如何。

🏆 测评背景

2026年春节前后，国内外主流大模型厂商集中发布新版本，形成了罕见的"春节档激战"格局，本次测评正是在此背景下展开。

🎯 测评目标

通过标准化的9大应用场景任务，客观评估各模型与AiPy的实际适配能力，为用户选型提供有力参考依据。

📋 测评范围

共纳入17款主流大模型，涵盖国内外头部厂商，包括Google、Anthropic、OpenAI、xAI及智谱、字节、阿里、腾讯等。

CHAPTER 02

📊

测试概况

本次测评共纳入 17 款主流大模型，累计执行 340 次测试任务，与模型实际交互耗时37小时，消耗2600万Tokens，覆盖9大核心应用场景。整体来看，各模型表现分化明显，头部模型成功率明显优于尾部，整体平均成功率达到 75.9%，说明当前主流大模型在AiPy平台上的适配度已达到较高水平。平均执行时间为 385秒，平均消耗tokens为 75,962，不同模型在效率与成本方面差异显著。

17

测试模型数

385s

平均执行时间

75K

平均消耗Tokens

75.9%

整体成功率

📈

各模型综合性能趋势

CHAPTER 02 · 综合排名

🏅

综合数据排名表

综合排名以成功率为第一维度，成功率相同时以平均消耗tokens（越少越好）为第二维度进行排序。平均tokens和平均执行时间均采用去除最高值和最低值后的均值，以减少异常值干扰，使数据更具参考价值。🥇Gemini-3-Pro 以 95% 的最高成功率依然稳坐榜首，展现出极强的综合实力。国内模型🥇GLM-5成功率与Claude-Opus-4.5和 Claude-Sonnet-4.6持平，反映出国内模型水平更近一步，已经趋近国际一流水平。

排名	模型名称	成功率	平均消耗Tokens	平均执行时间	模型厂商
🥇	Gemini-3-Pro	95%	36,020	124s	Google
🥈	Gemini-3.1-Pro-Preview	90%	28,361	125s	Google
🥉	Claude-Opus-4.5	85%	54,479	134s	Anthropic
4	Claude-Sonnet-4.6	85%	61,662	223s	Anthropic
5	GLM-5	85%	79,811	251s	智谱华章
6	Doubao-Seed-2.0-Pro-260215	80%	46,233	232s	字节跳动
7	GLM-4.7	80%	57,301	218s	智谱华章
8	Kimi-K2.5	80%	75,160	404s	月之暗面
9	GLM-4.6	80%	93,721	296s	智谱华章
10	Deepseek-V3.2	80%	112,802	636s	深度求索
11	Hunyuan-2.0-Thinking-20251109	75%	59,426	257s	腾讯
12	Doubao-Seed-1-8-251228	75%	74,175	293s	字节跳动
13	Grok-4.1-Fast	70%	58,057	104s	xAI
14	GPT-5.3-Codex	65%	27,262	406s	OpenAI
15	MiniMax-M2.5	65%	69,493	94s	稀宇极智
16	Qwen3.5-Plus	55%	63,927	163s	阿里
17	Qwen3-Max-2026-01-23	45%	91,187	200s	阿里

CHAPTER 03

🇨🇳

国内综合排名表及亮点分析

国内参测模型共 11 款，来自字节跳动、阿里、腾讯、智谱华章、月之暗面、深度求索等头部厂商。整体来看，国内模型表现参差不齐，但头部模型已展现出较强竞争力。GLM-5 以 85% 的成功率领跑国内榜单，成为国内最强选手；Doubao-Seed-2.0-pro 以 80% 的成功率和相对较低的tokens消耗展现出优秀的性价比；GLM-4.7 同样以 80% 成功率入围前三。值得关注的是，阿里系模型 Qwen3-Max 和 Qwen3.5-Plus 在本次测评中表现欠佳，成功率仅为 45% 和 55%，与其他国内模型存在明显差距，有较大提升空间。

排名	模型名称	成功率	平均消耗Tokens	平均执行时间	模型厂商
🥇	GLM-5	85%	79,811	251s	智谱华章
🥈	Doubao-Seed-2.0-Pro-260215	80%	46,233	232s	字节跳动
🥉	GLM-4.7	80%	57,301	218s	智谱华章
4	Kimi-K2.5	80%	75,160	404s	月之暗面
5	GLM-4.6	80%	93,721	296s	智谱华章
6	Deepseek-V3.2	80%	112,802	636s	深度求索
7	Hunyuan-2.0-Thinking-20251109	75%	59,426	257s	腾讯
8	Doubao-Seed-1-8-251228	75%	74,175	293s	字节跳动
9	MiniMax-M2.5	65%	69,493	94s	稀宇极智
10	Qwen3.5-Plus	55%	63,927	163s	阿里
11	Qwen3-Max-2026-01-23	45%	91,187	200s	阿里

🥇 国内冠军：GLM-5

智谱华章旗舰模型 GLM-5 以 85% 成功率夺得国内冠军，在多个任务类型上表现稳定，尤其在编程开发和数据分析场景中表现突出。

⚡ 性价比之星：Doubao-Seed-2.0

字节跳动 Doubao-Seed-2.0-pro 甩掉啰嗦的标签，以 80% 成功率和仅 46K 的平均tokens消耗，成为国内最具性价比的模型选择。

⚠️ 待改进：阿里系模型

Qwen3-Max 和 Qwen3.5-Plus 成功率分别仅为 45% 和 55%，在AiPy适配度上仍有较大提升空间，建议关注后续版本迭代。

CHAPTER 04

🌍

国外综合排名表及亮点分析

国外参测模型共 6 款，来自 Google、Anthropic、OpenAI、xAI 四大顶级AI机构。国外模型整体表现强劲，前两名均由 Google Gemini 系列包揽，Gemini-3-Pro 以 95% 的成功率位居全球总榜第一，Gemini-3.1-Pro-Preview 以 90% 紧随其后，Google 在本次测评中展现出压倒性优势。Anthropic 旗下 Claude-Opus-4.5 和 Claude-Sonnet-4.6 均以 85% 的成功率表现亮眼。相比之下，OpenAI 的 GPT-5.3-Codex 以 65% 的成功率表现略显逊色，经分析主要在中文处理能力上吃了亏，多个任务因中文处理问题不当导致失败，xAI 的 Grok-4.1-Fast 以 70% 居中。

排名	模型名称	成功率	平均消耗Tokens	平均执行时间	模型厂商
🥇	Gemini-3-Pro	95%	36,020	124s	Google
🥈	Gemini-3.1-Pro-Preview	90%	28,361	125s	Google
🥉	Claude-Opus-4.5	85%	54,479	134s	Anthropic
4	Claude-Sonnet-4.6	85%	61,662	223s	Anthropic
5	Grok-4.1-Fast	70%	58,057	104s	xAI
6	GPT-5.3-Codex	65%	27,262	406s	OpenAI

👑 全球冠军：Gemini-3-Pro

Google Gemini-3-Pro 以 95% 的顶级成功率摘得全球总冠军，同时平均tokens消耗仅 36K，兼顾了高性能与高效率。

🚀 Claude系列稳定发挥

Anthropic 旗下两款模型均达到 85% 成功率，Claude-Opus-4.5 tokens消耗更低，综合表现优于 Claude-Sonnet-4.6。

💡 Grok快速响应

xAI 的 Grok-4.1-Fast 平均执行时间仅 104秒，是所有模型中响应最快的之一，但成功率有待提升。

CHAPTER 05

✅

各模型成功率对比分析

从成功率分布来看，17款模型中，达到 85%以上优秀水平的有5款（Gemini-3-Pro、Gemini-3.1-Pro-Preview、Claude-Opus-4.5、Claude-Sonnet-4.6、GLM-5），占比约29%；达到 75-84%良好水平的有7款，占比约41%；处于 65-74%一般水平的有3款；低于65%的有2款，说明仍有部分模型在AiPy平台上的适配度需要进一步优化。整体成功率均值为 75.9%，处于行业中上游水平。

CHAPTER 06

🔢

各模型消耗Tokens对比分析

Tokens消耗量直接影响用户的使用成本，是模型选型的重要参考指标。从数据来看，GPT-5.3-Codex 以平均 27K tokens的极低消耗位居榜首，Gemini-3.1-Pro-Preview 以 28K tokens紧随其后，两者均展现出极高的token效率。而 Deepseek-V3.2 以 113K tokens位居消耗最高，GLM-4.6 以 94K tokens次之。值得注意的是，高tokens消耗并不一定意味着高成功率，性价比需综合考量成功率与消耗量两个维度。

CHAPTER 07

🗂️

各测试任务类型分布与热力图分析

本次测评覆盖9大任务类型，从热力图中可看出word制作和批量处理任务各模型成功率均100%，在AiPy上发挥稳定；日志分析和软件控制类任务则只有几个模型表现优秀；各模型在不同任务类型上的成功率分布可见下图，颜色越绿表示成功率越高，越红表示成功率越低，各模型的优势场景和薄弱环节一目了然。

📌 深度分析与模型使用建议：

🔍 联网搜索场景： Doubao系列和 GLM系列表现突出，成功率均为100%，推荐优先选择，在联网搜索任务中兼具高成功率和合理的tokens消耗。

💻 软件控制场景：该场景整体成功率偏低，多数模型在此类任务上存在挑战。建议选择 Gemini-3.1-Pro-Preview 或 Grok-4.1-Fast，并配合充分的任务描述提示词提升成功率。

📊 本地电脑分析场景：Gemini系列和Claude系列均表现优异。若成本敏感，可考虑 Doubao-Seed-2.0-pro、Hunyuan-2.0-Thinking-20251109、Kimi-K2.5，其在本地电脑分析场景中展现出良好的性价比。

📝 日志分析场景：大文件日志分析中 Gemini系列有出色表现，其余模型均有所失误。

CHAPTER 08

🎯

TOP5多维度性能雷达图

雷达图从执行效率、Token效率、稳定性、成功率、综合评分五大维度，全面呈现综合排名前5的模型（Gemini-3-Pro、Gemini-3.1-Pro-Preview、Claude-Opus-4.5、Claude-Sonnet-4.6、GLM-5）的能力分布。其中：执行效率以平均执行时间归一化衡量（越快越高）；Token效率以平均tokens消耗归一化衡量（越省越高）；稳定性以执行时间标准差衡量（越稳定越高）；综合评分由成功率、执行效率、Token效率、稳定性加权计算得出。从图中可以看出，Gemini-3.1-Pro-Preview 在Token效率和稳定性维度表现最为突出，综合评分最高；Gemini-3-Pro 成功率最高，整体均衡性强；GLM-5 作为国内唯一入选TOP5的模型，稳定性表现优异，但Token效率有待提升。

CHAPTER 09

❌

失败原因分析

本次测评共记录 82次测试失败，通过对失败原因的系统梳理，发现主要集中在以下几类问题：代码质量问题是最主要的失败原因，占比高达48%，说明模型在代码生成和执行层面仍有较大提升空间；任务规划问题以28%的占比位居第二，反映出部分模型在复杂任务的拆解和执行路径规划上存在不足；中文乱码问题以18%占比排名第三，主要集中在文件输出格式和画图处理环节，是国内场景下的特有痛点。

🐛 代码质量问题 (39次 / 47.6%)

代码逻辑错误、语法问题或依赖缺失导致执行失败，是最主要的失败原因，建议模型加强代码自检能力。

🗺️ 任务规划问题 (23次 / 28.0%)

模型对复杂任务的分解和执行路径规划不合理，导致任务无法完成，需提升多步骤任务的规划能力。

🔤 中文乱码问题 (15次 / 18.3%)

文件读写或输出时出现中文编码问题，在国内使用场景中尤为突出，需模型加强编码处理能力。

🤔 任务理解问题 (3次 / 3.7%)

模型对用户意图理解偏差，导致执行方向错误，建议优化指令理解和意图识别能力。

CHAPTER 10

📋

测试任务分类表（部分题目展示）

以下展示本次测评使用的部分测试题目，涵盖9大任务类型的典型代表性任务。以下为部分题目，完整题目集可联系AiPy官方获取。

序号	测试问题	任务类型
1	分析一下我电脑桌面的文件和应用类型，针对混乱的文件或应用根据类型做个详细整理建议放到精美的html中。	本地分析
2	打开windows系统默认画图软件，控制我鼠标，帮我化一个身材优美的铅笔画女性。	软件控制
3	使用系统默认邮件客户端，给XXXXXXXXX@qq.com发一封邮件，邮件主题为“test”邮件内容是：“test”，最...	软件控制
4	分析一下我浏览器的收藏夹和历史访问记录，看看我是一个什么样的人？	本地分析
5	我有一个10年的打卡记录csv表，有姓名、日期、上班时间、下班时间几列。帮我生成一个1000人（帮我取下名字），从202...	数据分析
6	帮我推荐10个今天需要关注的股票，把他们的涨跌情况，做成漂亮的html报表写到"gp.html"。	网络爬取
7	查询我所在地区最近7天的天气，绘制一张天气趋势折线图。	联网搜索
8	联网搜索“中芯国际”相关信息，做一份精美的公司调研分析报告。	联网搜索
9	请帮我批量将C:\Users\Administrator\Desktop\0.2.0-ds文件夹下所有文件中涉及的"sk...	批量处理
10	请给6年级学生出具一份满分100分的数学试卷，要求保存为word格式，附带答案和解析。	Word制作

CHAPTER 11

🔬

深度洞察

基于本次340次完整测试数据，从多个维度进行深度分析，提炼出以下关键洞察，供用户在模型选型和使用策略制定时参考。本次测评数据客观反映了当前主流大模型在AiPy平台上的真实表现，各模型均有其独特的优势场景和改进空间。

🏆 性能冠军分析

Gemini-3-Pro 以 95% 的最高成功率摘得本次测评总冠军，同时平均tokens消耗仅 36K，是成功率与效率的完美结合。Google Gemini 系列包揽全球前两名，展现出在AiPy平台上的卓越适配能力。国内冠军 GLM-5 以 85% 的成功率表现亮眼，与国际顶级模型的差距正在快速缩小。

💡 亮点发现

Google双雄垄断：Gemini-3-Pro 和 Gemini-3.1-Pro-Preview 包揽全球前两名，且tokens消耗均处于较低水平，性价比突出。
国内黑马GLM-5：智谱GLM-5进步明显，以85%成功率与国际顶级模型并驾齐驱。
Claude系列稳定：Anthropic两款模型均达85%，稳定性极强。
速度之王MiniMax：MiniMax-M2.5平均响应仅94秒，适合对速度敏感的场景。

⚠️ 改进建议

代码质量：48%的失败源于代码质量问题，建议厂商重点优化代码生成和自检能力。
中文编码：18%的失败涉及中文乱码，国内模型应优先解决本地化编码问题。
阿里系模型：Qwen系列成功率偏低，建议针对AiPy平台的工具调用场景进行专项优化。
软件控制场景：整体成功率最低，是所有模型共同的薄弱环节，需重点突破。

📊 选型建议矩阵

追求最高成功率：首选 Gemini-3-Pro（95%）
国内最佳选择：GLM-5（85%，国内冠军）
速度优先：MiniMax-M2.5（94秒平均响应）
代码开发场景：Claude-Opus-4.5（85%+强代码能力）
国内性价比：GLM 系列、Doubao-Seed系列、Kimi-K2.5

CHAPTER 12

📝

测评总结

本次聚焦2026年春节档大模型实战，覆盖 17款主流大模型，完成 340次标准化测试，与模型实际交互耗时37小时，消耗2600万Tokens，整体成功率达到 75.9%，展现出当前大模型生态的整体繁荣与进步。

从结果来看，Google Gemini系列以压倒性优势包揽全球前两名，Gemini-3-Pro 以 95% 的成功率成为本次测评的最大赢家，同时兼具较低的tokens消耗，综合实力无可置疑。Anthropic Claude系列稳定发挥，两款模型均达85%，展现出一贯的高水准。国内方面，智谱GLM-5以85%的成功率领跑国内榜单，成为国内大模型在AiPy平台上的最强代言人，字节跳动Doubao系列和月之暗面Kimi-K2.5也有不俗表现。

从失败原因分析来看，代码质量问题（48%）和任务规划问题（28%）是制约模型表现的主要瓶颈，中文乱码问题（18%）则是国内场景下的特有挑战。未来，随着各厂商持续迭代优化，这些问题有望得到逐步解决。

AiPy将持续开展模型测评工作，为广大用户提供最客观、最权威的模型适配度参考。感谢所有关注AiPy测评的粉丝朋友们，我们下期再见！🚀

2026 春节档模型大战测评报告