Blog.wlens.top
1408 字
7 分钟
为了测试 MiniMax 2.7,我用 GPT-5.3-Codex 搭了个“套娃”中转:一次面向工程实战的对比
为了测试 MiniMax 2.7,我用 GPT-5.3-Codex 搭了个“套娃”中转:一次面向工程实战的对比
TL;DR
这次测试我想回答 3 个问题:
- MiniMax 2.7 的工程编码能力到底在什么水平。
- 同一模型在
Codex和ClaudeCode两个工具里的可靠性是否一致。 - 真实生产协作里,什么任务应该放在哪个工具里跑。
结论先说:
- MiniMax 2.7 的编码能力在“中等偏上”,能完成完整项目骨架和大部分功能。
- 在
ClaudeCode + 原生 Anthropic 端点下,过程连续性更好,长链路任务更稳定。 - 在
Codex + 协议中转下可用,但更容易出现中断、卡住或回合终止。 - 两边产物都不是“完美解”:一个偏稳定但有语义漏洞,一个语义更严格但存在稳定性 bug。
1. 背景:为什么要“套娃”
我遇到的现实问题是:MiniMax 2.7 原生偏 Anthropic 协议,而我日常高频在 Codex 里工作。为了验证“同一模型在不同工具链路里的真实表现”,我让 GPT-5.3-Codex 写了一个本地中转代理,把请求从 OpenAI-style responses 转成 MiniMax 可接受格式,再把响应映射回来。
换句话说,这不是单纯测“模型聊天”,而是测:
- 模型能力
- 工具协议兼容
- 长链路执行稳定性
2. 实验设计(尽量可复现)
2.1 被测对象
- 同一模型:
MiniMax-M2.7 - 两个运行环境:
- A:
ClaudeCode + 原生 Anthropic 通道 - B:
Codex + 本地桥接代理
- A:
2.2 同题对比任务
我使用同一类工程题做对比:
- 从空白项目实现一个 DAG 工作流执行器(CLI)
- 包含依赖执行、超时、重试、
--resume、报告输出、自动化测试
2.3 验收关注点
- 功能是否完成
- 测试是否真实覆盖关键语义
- 工具调用链是否稳定(是否中断、是否反复中途停)
- 代码在边界条件下是否符合语义(不是“看起来通过”)
2.4 有效性说明(很重要)
这是一次高强度实操,不是大样本 benchmark。结论更适合指导“任务分配策略”,不应被解读为通用排行榜结论。
3. 结果:表面通过,不等于语义正确
3.1 ClaudeCode 这边:过程更顺,完成度高
体感上它是“几乎一口气到底”的,测试和 smoke 也能跑完,整体协作体验明显更流畅。
但进一步复核时,我发现一个关键问题:
- 在严格依赖阻塞场景里,下游任务可能被过早启动(DAG 语义有漏洞)。
另外,--resume 的实现与测试断言偏宽松,存在“看似支持、实际重复执行”的风险。
3.2 Codex + 中转这边:语义更严,但稳定性吃亏
它在依赖阻塞语义上表现更老实,严格 DAG 用例能通过。
但在长链路执行中,中断/挂起出现得更频繁,尤其在 --resume 分支暴露了死循环类问题,直接影响“无人值守”可靠性。
3.3 一句话总结这次对比
ClaudeCode:更稳、更顺,但要警惕“测试通过掩盖语义漏洞”。Codex + 中转:更容易暴露真实硬伤,优点是问题能被逼出来,缺点是过程更折腾。
4. 我给 MiniMax 2.7 的实战评分
| 维度 | 体感评分 | 说明 |
|---|---|---|
| 纯编码能力 | 7/10 | 可以完成中型工程任务,但复杂状态语义仍需强约束 |
| 长链路连续性(原生通道) | 8/10 | 在 ClaudeCode 里明显更稳定 |
| 长链路连续性(桥接通道) | 5.5/10 | 可用,但中断概率更高 |
| 复杂语义可靠性 | 6/10 | DAG/resume/并发边界需要专门回归用例 |
5. 给团队的落地建议(最有用的部分)
5.1 任务应该怎么分配
适合交给 MiniMax 2.7 的任务:
- 中小型实现任务(脚本、CLI、接口层、常规重构)。
- 有清晰输入输出和自动化验收命令的任务。
- 10-30 分钟可闭环的短迭代任务。
不适合直接放手的任务:
- 高风险核心逻辑(并发状态机、数据一致性、迁移脚本)。
- 需要“一次性无人值守跑到底”的超长链路。
- 测试覆盖不足却要求高确定性的上线改动。
5.2 工具怎么选
- 追求连续性和效率:优先
ClaudeCode + 原生端点。 - 追求可控和可审计:
Codex + 更短回路 + 强验收脚本。 - 不管在哪边:都要“分阶段 + 每阶段可验证”。
5.3 最佳实践
- 把大任务拆成 3-5 个可独立验收小阶段。
- 每阶段必须先跑命令再汇报结果。
- 对 DAG/resume/并发逻辑,强制加针对性回归测试。
- 不把“测试绿了”当唯一真相,至少补 1-2 个反例测试。
6. 这次实验最重要的收获
MiniMax 2.7 不是“不能用”,而是“要用对位置、配对流程”。
它在正确的约束和工作流下,完全可以成为高产协作员;但如果直接把它当无人监管的资深工程师,在复杂状态语义上仍有翻车概率。
与其问“它能不能吊打谁”,不如问:
- 你有没有给它足够清晰的验收边界?
- 你是不是把任务拆成了可验证的小闭环?
- 你是否区分了“流程稳定性”和“结果语义正确性”?
这三件事做对了,模型价值会被放大很多。
为了测试 MiniMax 2.7,我用 GPT-5.3-Codex 搭了个“套娃”中转:一次面向工程实战的对比
https://blog.wlens.top/posts/为了测试-minimax-27我用-gpt-53-codex-搭了个套娃中转一次面向工程实战的对比/