为了测试 MiniMax 2.7，我用 GPT-5.3-Codex 搭了个“套娃”中转：一次面向工程实战的对比#

TL;DR#

这次测试我想回答 3 个问题：

MiniMax 2.7 的工程编码能力到底在什么水平。
同一模型在 Codex 和 ClaudeCode 两个工具里的可靠性是否一致。
真实生产协作里，什么任务应该放在哪个工具里跑。

结论先说：

MiniMax 2.7 的编码能力在“中等偏上”，能完成完整项目骨架和大部分功能。
在 ClaudeCode + 原生 Anthropic 端点 下，过程连续性更好，长链路任务更稳定。
在 Codex + 协议中转 下可用，但更容易出现中断、卡住或回合终止。
两边产物都不是“完美解”：一个偏稳定但有语义漏洞，一个语义更严格但存在稳定性 bug。

1. 背景：为什么要“套娃”#

我遇到的现实问题是：MiniMax 2.7 原生偏 Anthropic 协议，而我日常高频在 Codex 里工作。为了验证“同一模型在不同工具链路里的真实表现”，我让 GPT-5.3-Codex 写了一个本地中转代理，把请求从 OpenAI-style responses 转成 MiniMax 可接受格式，再把响应映射回来。

换句话说，这不是单纯测“模型聊天”，而是测：

模型能力
工具协议兼容
长链路执行稳定性

2. 实验设计（尽量可复现）#

2.1 被测对象#

同一模型：MiniMax-M2.7
两个运行环境：
- A: ClaudeCode + 原生 Anthropic 通道
- B: Codex + 本地桥接代理

2.2 同题对比任务#

我使用同一类工程题做对比：

从空白项目实现一个 DAG 工作流执行器（CLI）
包含依赖执行、超时、重试、--resume、报告输出、自动化测试

2.3 验收关注点#

功能是否完成
测试是否真实覆盖关键语义
工具调用链是否稳定（是否中断、是否反复中途停）
代码在边界条件下是否符合语义（不是“看起来通过”）

2.4 有效性说明（很重要）#

这是一次高强度实操，不是大样本 benchmark。结论更适合指导“任务分配策略”，不应被解读为通用排行榜结论。

3. 结果：表面通过，不等于语义正确#

3.1 ClaudeCode 这边：过程更顺，完成度高#

体感上它是“几乎一口气到底”的，测试和 smoke 也能跑完，整体协作体验明显更流畅。

但进一步复核时，我发现一个关键问题：

在严格依赖阻塞场景里，下游任务可能被过早启动（DAG 语义有漏洞）。

另外，--resume 的实现与测试断言偏宽松，存在“看似支持、实际重复执行”的风险。

3.2 Codex + 中转这边：语义更严，但稳定性吃亏#

它在依赖阻塞语义上表现更老实，严格 DAG 用例能通过。

但在长链路执行中，中断/挂起出现得更频繁，尤其在 --resume 分支暴露了死循环类问题，直接影响“无人值守”可靠性。

3.3 一句话总结这次对比#

ClaudeCode：更稳、更顺，但要警惕“测试通过掩盖语义漏洞”。
Codex + 中转：更容易暴露真实硬伤，优点是问题能被逼出来，缺点是过程更折腾。

4. 我给 MiniMax 2.7 的实战评分#

维度	体感评分	说明
纯编码能力	7/10	可以完成中型工程任务，但复杂状态语义仍需强约束
长链路连续性（原生通道）	8/10	在 ClaudeCode 里明显更稳定
长链路连续性（桥接通道）	5.5/10	可用，但中断概率更高
复杂语义可靠性	6/10	DAG/resume/并发边界需要专门回归用例