距上次AiPy适配度测评已近2个月的时间,在这段时间中,全球人工智能领域持续高速演进,各大模型厂商也陆续发布了多个重磅模型,尤其在编码方面,如智谱发布了Coding模型GLM-4.6,Anthropic发布了号称全球最佳编码模型的 Claude-Sonnet-4.5等,这些发布不仅反映出行业竞争的加剧,也凸显出大模型在专业化、场景化应用方向的深入发展。为给用户实际应用提供更具参考价值的选型参考,本次测评又进行了优化改进:
本次测评对20款主流大模型进行了多方面的测试。测试过程严格遵循标准化流程,确保每个模型在相同条件下接受评估,测试结果真实反映了各模型在实际应用场景中的表现能力。
以下排名综合考虑了成功率和资源消耗维度,排名相同成功率的模型,按照Tokens消耗从低到高排序,体现了模型在保证质量的同时对资源的优化利用能力。(注:由于不同模型计费模式不同,实际成本效益建议结合具体情况综合考量)
| 排名 | 模型名称 | 成功率 | 平均消耗Tokens | 平均执行时间 | 模型厂商 | 地区 |
|---|---|---|---|---|---|---|
| 🥇1 | Claude-Sonnet-4 | 90% | 113,571 | 298秒 | Anthropic | |
| 🥈2 | GLM-4.5 | 80% | 43,093 | 235秒 | 智谱华章 | |
| 🥉3 | Doubao-Seed-1.6 | 80% | 58,525 | 389秒 | 字节跳动 | |
| 4 | Grok-4-Fast | 70% | 47,450 | 79秒 | xAI | |
| 5 | Kimi-K2-0905 | 70% | 51,881 | 153秒 | 月之暗面 | |
| 6 | GLM-4.6 | 70% | 61,972 | 261秒 | 智谱华章 | |
| 7 | Claude-Sonnet-4.5 | 70% | 69,400 | 173秒 | Anthropic | |
| 8 | Hunyuan-Turbos-0926 | 70% | 78,247 | 166秒 | 腾讯 | |
| 9 | Qwen3-Coder-Plus | 70% | 107,306 | 177秒 | 阿里 | |
| 10 | Gemini-2.5-Pro | 60% | 30,831 | 106秒 | ||
| 11 | Qwen3-Max-Preview | 60% | 45,885 | 183秒 | 阿里 | |
| 12 | DeepSeek-Reasoner | 60% | 90,607 | 468秒 | 深度求索 | |
| 13 | GPT-5 | 50% | 43,558 | 288秒 | OpenAI | |
| 14 | Qwen3-235B-A22B-Thinking | 50% | 47,705 | 233秒 | 阿里 | |
| 15 | DeepSeek-V3.2-Exp | 50% | 50,058 | 272秒 | 深度求索 | |
| 16 | Ernie-x1.1-Preview | 40% | 107,858 | 657秒 | 百度 | |
| 17 | Qwen3-Next-80B-A3B | 30% | 46,705 | 50秒 | 阿里 | |
| 18 | LongCat-Flash-Chat | 20% | 16,060 | 50秒 | 美团 | |
| 19 | Deepseek-V3.1 | 20% | 30,637 | 72秒 | 深度求索 | |
| 20 | LongCat-Flash-Thinking | 10% | 19,375 | 58秒 | 美团 |
本次测评共有15款国内模型参与,整体表现稳健。国内模型在本地化场景和中文处理方面展现出明显优势,特别是在数据分析、文本生成等任务中表现突出。
| 排名 | 模型名称 | 成功率 | 平均消耗Tokens | 平均执行时间 | 模型厂商 |
|---|---|---|---|---|---|
| 🥇1 | GLM-4.5 | 80% | 43,093 | 235秒 | 智谱华章 |
| 🥈2 | Doubao-Seed-1.6 | 80% | 58,525 | 389秒 | 字节跳动 |
| 🥉3 | Kimi-K2-0905 | 70% | 51,881 | 153秒 | 月之暗面 |
| 4 | GLM-4.6 | 70% | 61,972 | 261秒 | 智谱华章 |
| 5 | Hunyuan-Turbos-0926 | 70% | 78,247 | 166秒 | 腾讯 |
| 6 | Qwen3-Coder-Plus | 70% | 107,306 | 177秒 | 阿里 |
| 7 | Qwen3-Max-Preview | 60% | 45,885 | 183秒 | 阿里 |
| 8 | DeepSeek-Reasoner | 60% | 90,607 | 468秒 | 深度求索 |
| 9 | Qwen3-235B-A22B-Thinking | 50% | 47,705 | 233秒 | 阿里 |
| 10 | DeepSeek-V3.2-Exp | 50% | 50,058 | 272秒 | 深度求索 |
| 11 | Ernie-x1.1-Preview | 40% | 107,858 | 657秒 | 百度 |
| 12 | Qwen3-Next-80B-A3B | 30% | 46,705 | 50秒 | 阿里 |
| 13 | LongCat-Flash-Chat | 20% | 16,060 | 50秒 | 美团 |
| 14 | Deepseek-V3.1 | 20% | 30,637 | 72秒 | 深度求索 |
| 15 | LongCat-Flash-Thinking | 10% | 19,375 | 58秒 | 美团 |
参评的5款国外模型整体表现优秀,平均成功率达到68.0%,在复杂推理、多模态处理等方面展现出领先优势。
| 排名 | 模型名称 | 成功率 | 平均消耗Tokens | 平均执行时间 | 模型厂商 |
|---|---|---|---|---|---|
| 🥇1 | Claude-Sonnet-4 | 90% | 113,571 | 298秒 | Anthropic |
| 🥈2 | Grok-4-Fast | 70% | 47,450 | 79秒 | xAI |
| 🥉3 | Claude-Sonnet-4.5 | 70% | 69,400 | 173秒 | Anthropic |
| 4 | Gemini-2.5-Pro | 60% | 30,831 | 106秒 | |
| 5 | GPT-5 | 50% | 43,558 | 288秒 | OpenAI |
成功率是衡量模型实战能力的核心指标。从测试结果来看,模型间的成功率差异显著,从最高的90%到最低的10%,跨度达80个百分点。这反映出不同模型在任务理解、代码生成、错误处理等方面存在明显的能力差距。高成功率模型往往在任务规划、代码质量和异常处理方面表现更加成熟。
执行时间会直接影响用户体验,测试数据显示,最快的模型(Qwen3-Next-80B-A3B,50秒)与最慢的模型(Ernie-x1.1-Preview,657秒)相差超过13倍。执行时间受模型架构、推理策略、任务复杂度等多重因素影响。值得注意的是,执行时间与成功率并非简单的负相关关系,部分高成功率模型同样保持了较快的响应速度,用户在选用模型时可综合考虑。
Tokens消耗直接关系到使用成本,是企业级应用选型的重要考量因素。测试结果显示,不同模型的Tokens消耗差异巨大,从最低的16,060到最高的113,571,相差超过7倍。低消耗模型在保持任务完成质量的同时,能够显著降低运营成本,特别适合大规模部署场景。但由于各模型厂商计费方式的不同,测评中仅计算tokens消耗,实际考量成本因素时还需结合具体情况考虑。
本次测评精心挑选10大常见AiPy应用场景,热力图清晰展示了各模型在不同任务类型上的表现差异,帮助用户根据实际需求选择最适合的模型。颜色越深表示该模型在该任务类型上的成功率越高。
雷达图从成功率、速度、效率、稳定性和综合表现五个维度展示TOP5模型的能力画像。每个维度满分100分,图形面积越大表示综合实力越强。通过雷达图可以直观看出各模型的优势领域和短板所在,为不同应用场景提供选型参考。
通过对88个失败案例的深入分析,我们识别出主要失败原因。了解这些失败因素有助于模型和AiPy开发者针对性优化,也为用户在实际应用中规避风险提供参考。下图展示了TOP10失败原因的分布情况,其中"其他"类别包含了出现频次较低的失败原因。
关键发现:代码质量问题(29.5%)和代码块标记问题(18.2%)是导致失败的两大主因,合计占比近50%。这表明模型在代码生成规范性和指令跟随方面仍有较大提升空间。此外,模型服务不稳定(14.8%)和绘图时中文乱码问题(9.1%)也是影响用户体验的重要因素。
以下展示10个具有代表性的测评任务,涵盖了本次测评的主要应用场景。这些任务设计贴近实际应用需求,从简单的信息检索到复杂的数据分析,重点考察模型的综合实战能力。
| 序号 | 问题 | 任务类型 |
|---|---|---|
| 1 | XX文件(10G)是网站访问日志,请先对少量日志分析识别URL、IP、UA等关键字段,然后再分析全量日志生成一份精美的HTML网站日志分析报告。 | 大文件处理 |
| 2 | 分析当前电脑中CPU、内存占用率最高的TOP10软件分别是哪些,生成一份优化建议HTML | 本地分析类 |
| 3 | 访问https://www.aipyaipy.com/首页,爬取aipy和manus的区别相关内容并总结。 | 网络爬取类 |
| 4 | 使用系统默认邮件客户端,给XXX发一封邮件,邮件主题为“test”邮件内容是:“test”,最后一步发送时控制键盘使用快捷键ctrl+enter发送 | 软件控制类 |
| 5 | 生成一个AiPy的调研分析报告,包括其产品介绍、功能亮点,优缺点,下载安装链接,github开源链接,官方论坛链接 | 联网搜索类 |
| 6 | 【设计】运动健身APP原型图 | UI设计 |
| 7 | 批量将文件夹下所有文件中涉及的"sk-"密钥信息脱敏,并将脱敏的具体详情输出给我核对。 | 批量任务类 |
| 8 | https://github.com/jiasule/jsl-open-api/blob/master/lib/python/white_black_list.py是云防御黑白名单配置的API示例脚本,请帮我包装其中的功能为一个云防御配置工具.exe的程序保存到桌面 | 工具制造类 |
| 9 | 查询AiPy相关的信息,先生成1张宣传海报,然后再根据海报图片制作成一个5s的宣传视频,要求要有“aipy”字样,且体现aipy的核心优势 | 生成创作类 |
| 10 | 我是一家3C家电全国连锁品牌的销售负责人,请帮我分析这份各门店销售情况汇总数据。 1、文件路径::"C:\AiPyPro\resources\app.asar.unpacked\resources\demo\3c_sales.xlsx" 2、文件内容:表头分别为:order_id date、... | 数据分析类 |
以90%的成功率稳居榜首,仅在数据分析场景因中文字体处理失分。其强大的代码生成能力、精准的任务理解和出色的错误处理机制,使其成为当前最可靠的生产环境选择。特别是在大文件处理(3170万条日志)、工具制造(exe程序打包)等高难度任务中的完美表现,充分展示了其技术实力。
以80%的成功率和低Tokens消耗稳居国内榜首,该模型在前面几期测评中表现也整体优异,仅在大文件处理中因空响应和数据分析类中因中文字体处理失分,值得注意的是GLM-4.5在高成功率的情况下,时间和Tokens消耗均得到平衡,为国内用户使用提供了优质选择。
本次测评通过优化后的10个常见用户真实使用场景,评估20款主流和新晋大模型的实战能力。Claude-Sonnet-4以90%的成功率证明了其在复杂任务处理方面的领先地位,而GLM-4.5和Doubao-Seed-1.6等国产模型的优异表现,代表了中国AI技术已经跻身世界一流水平。同时,我们也看到不同模型在速度、成本、专业领域等方面各有特色,为用户提供了丰富的选择空间。
测评过程中发现的代码质量、指令跟随、中文支持、服务稳定性等问题,为模型优化指明了方向。我们期待在下一期测评中看到更多模型在这些方面的改进。AiPy团队将持续跟踪大模型技术发展,定期发布适配度测评报告,为用户提供最新、最全面的模型选型参考。感谢您的关注与支持!