| 排名 | 模型 | 思考模式 | 综合评价 |
|---|---|---|---|
| 🥇 1 | GPT-5.5 | High | 全球最强 |
| 🥈 2 | Claude Opus 4.8 | High | 编程标杆 |
| 🥉 3 | GLM-5.2 | Max | 国产最强,持平 Opus |
| 4+ | DeepSeek V4 Pro | — | 性价比领先 |
| 4+ | 其他国产模型 | — | 存在代差 |
单次会话完整处理,成功定位复杂故障链路。1M 上下文不是纸面数字。
一次性读取四份完整合同文档,精准发现条款间矛盾与冲突。
一次性生成包含五大同心圆层、七颗齿轮的机械天文钟,零外部依赖,纯前端代码。
处理 A*、Dijkstra、BFS 三种算法可视化时,自主实现优先队列组件而非调用库函数。
Flutter、Web、Game 等5个场景中获得3个 A 档评级。GLM-5.1 同期无法完成全部工程。