1408 字
7 分钟
为了测试 MiniMax 2.7,我用 GPT-5.3-Codex 搭了个“套娃”中转:一次面向工程实战的对比

为了测试 MiniMax 2.7,我用 GPT-5.3-Codex 搭了个“套娃”中转:一次面向工程实战的对比#

TL;DR#

这次测试我想回答 3 个问题:

  1. MiniMax 2.7 的工程编码能力到底在什么水平。
  2. 同一模型在 CodexClaudeCode 两个工具里的可靠性是否一致。
  3. 真实生产协作里,什么任务应该放在哪个工具里跑。

结论先说:

  • MiniMax 2.7 的编码能力在“中等偏上”,能完成完整项目骨架和大部分功能。
  • ClaudeCode + 原生 Anthropic 端点 下,过程连续性更好,长链路任务更稳定。
  • Codex + 协议中转 下可用,但更容易出现中断、卡住或回合终止。
  • 两边产物都不是“完美解”:一个偏稳定但有语义漏洞,一个语义更严格但存在稳定性 bug。

1. 背景:为什么要“套娃”#

我遇到的现实问题是:MiniMax 2.7 原生偏 Anthropic 协议,而我日常高频在 Codex 里工作。为了验证“同一模型在不同工具链路里的真实表现”,我让 GPT-5.3-Codex 写了一个本地中转代理,把请求从 OpenAI-style responses 转成 MiniMax 可接受格式,再把响应映射回来。

换句话说,这不是单纯测“模型聊天”,而是测:

  • 模型能力
  • 工具协议兼容
  • 长链路执行稳定性

2. 实验设计(尽量可复现)#

2.1 被测对象#

  • 同一模型:MiniMax-M2.7
  • 两个运行环境:
    • A: ClaudeCode + 原生 Anthropic 通道
    • B: Codex + 本地桥接代理

2.2 同题对比任务#

我使用同一类工程题做对比:

  • 从空白项目实现一个 DAG 工作流执行器(CLI)
  • 包含依赖执行、超时、重试、--resume、报告输出、自动化测试

2.3 验收关注点#

  • 功能是否完成
  • 测试是否真实覆盖关键语义
  • 工具调用链是否稳定(是否中断、是否反复中途停)
  • 代码在边界条件下是否符合语义(不是“看起来通过”)

2.4 有效性说明(很重要)#

这是一次高强度实操,不是大样本 benchmark。结论更适合指导“任务分配策略”,不应被解读为通用排行榜结论。


3. 结果:表面通过,不等于语义正确#

3.1 ClaudeCode 这边:过程更顺,完成度高#

体感上它是“几乎一口气到底”的,测试和 smoke 也能跑完,整体协作体验明显更流畅。

但进一步复核时,我发现一个关键问题:

  • 在严格依赖阻塞场景里,下游任务可能被过早启动(DAG 语义有漏洞)。

另外,--resume 的实现与测试断言偏宽松,存在“看似支持、实际重复执行”的风险。

3.2 Codex + 中转这边:语义更严,但稳定性吃亏#

它在依赖阻塞语义上表现更老实,严格 DAG 用例能通过。

但在长链路执行中,中断/挂起出现得更频繁,尤其在 --resume 分支暴露了死循环类问题,直接影响“无人值守”可靠性。

3.3 一句话总结这次对比#

  • ClaudeCode:更稳、更顺,但要警惕“测试通过掩盖语义漏洞”。
  • Codex + 中转:更容易暴露真实硬伤,优点是问题能被逼出来,缺点是过程更折腾。

4. 我给 MiniMax 2.7 的实战评分#

维度体感评分说明
纯编码能力7/10可以完成中型工程任务,但复杂状态语义仍需强约束
长链路连续性(原生通道)8/10在 ClaudeCode 里明显更稳定
长链路连续性(桥接通道)5.5/10可用,但中断概率更高
复杂语义可靠性6/10DAG/resume/并发边界需要专门回归用例

5. 给团队的落地建议(最有用的部分)#

5.1 任务应该怎么分配#

适合交给 MiniMax 2.7 的任务:

  1. 中小型实现任务(脚本、CLI、接口层、常规重构)。
  2. 有清晰输入输出和自动化验收命令的任务。
  3. 10-30 分钟可闭环的短迭代任务。

不适合直接放手的任务:

  1. 高风险核心逻辑(并发状态机、数据一致性、迁移脚本)。
  2. 需要“一次性无人值守跑到底”的超长链路。
  3. 测试覆盖不足却要求高确定性的上线改动。

5.2 工具怎么选#

  • 追求连续性和效率:优先 ClaudeCode + 原生端点
  • 追求可控和可审计:Codex + 更短回路 + 强验收脚本
  • 不管在哪边:都要“分阶段 + 每阶段可验证”。

5.3 最佳实践#

  1. 把大任务拆成 3-5 个可独立验收小阶段。
  2. 每阶段必须先跑命令再汇报结果。
  3. 对 DAG/resume/并发逻辑,强制加针对性回归测试。
  4. 不把“测试绿了”当唯一真相,至少补 1-2 个反例测试。

6. 这次实验最重要的收获#

MiniMax 2.7 不是“不能用”,而是“要用对位置、配对流程”。

它在正确的约束和工作流下,完全可以成为高产协作员;但如果直接把它当无人监管的资深工程师,在复杂状态语义上仍有翻车概率。

与其问“它能不能吊打谁”,不如问:

  • 你有没有给它足够清晰的验收边界?
  • 你是不是把任务拆成了可验证的小闭环?
  • 你是否区分了“流程稳定性”和“结果语义正确性”?

这三件事做对了,模型价值会被放大很多。

为了测试 MiniMax 2.7,我用 GPT-5.3-Codex 搭了个“套娃”中转:一次面向工程实战的对比
https://blog.wlens.top/posts/为了测试-minimax-27我用-gpt-53-codex-搭了个套娃中转一次面向工程实战的对比/
作者
Lao Wang
发布于
2026-04-06
许可协议
CC BY-NC-SA 4.0