Mistral AI 正式推出第二代开源编码模型家族:Devstral2(1230亿参数旗舰版)与 Devstral Small2(240亿参数轻量版)。旗舰模型在 SWE-Bench Verified 基准拿下72.2% 得分,刷新开源类别最佳成绩;官方宣称「成本效益比 Claude Sonnet 低7倍」,并同步开源 CLI 工具 Mistral Vibe,支持自然语言批量改代码。两款模型已上线 API,Devstral2每百万输入 token0.40美元,轻量版 完全免费 。

模型速览:一大一小,开源双轨  

Mistral 发布 Devstral2 开源编程模型:1230 亿参数,成本仅 Claude Sonnet 1/7

性能突破:72.2% 刷新开源代码模型纪录  

– SWE-Bench Verified:Devstral2得分72.2%,超越 CodeLlama-70B(53.8%)、DeepSeek-Coder-33B(61.4%),距离 GPT-4-Turbo(73.2%)仅1pp  

– HumanEval:84.1% Pass@1,领先同类开源模型6-8pp  

– 成本:官方称「比 Claude Sonnet 便宜7倍」;0.4$/M in 约为 GPT-4-Turbo 的1/5

开源工具:Mistral Vibe —— 自然语言批量改代码  

– 功能:一句「把函数改为异步」可自动重写整个仓库,支持 diff 预览与回滚  

– 引擎:本地调用 Devstral Small2(Apache2.0),无需联网即可跑  

– 集成:VS Code 插件已上架,支持一键修复 ESLint 错误或添加单测

商业策略:轻量免费+旗舰 API,分层收割  

– Devstral Small2:Apache2.0,可商用、可微调、可嵌入  

– Devstral2:修改 MIT,月营收>2000万美元需购买商业许可或走官方 API,避免「大厂白嫖」  

– API 定价:输入0.4$/M、输出1.2$/M;前30天免费额度100万 token

行业信号:开源编码模型进入「70+ 俱乐部」  

-2024年主流开源代码模型 SWE-Bench 普遍50-60%;Devstral2直接把门槛拉到72%+  

– 低成本+高分数,将冲击 GitHub Copilot、Cursor 等付费插件的性价比  

– 轻量版完全免费,有望加速「本地 AI 编码助手」普及,开发者 RTX4090即可跑24B 模型

 下一步:2025路线图  

– Q1:发布 Devstral2-INT4量化版,单 A100即可跑;推出 Jetson Orin 边缘部署包  

– Q2:开放128k 上下文版本,支持整个代码库+文档作为 prompt  

– Q3:上线「Vibe Cloud」——浏览器内自然语言重构整包代码,按项目计费

 编辑结语  

当「代码生成」卷到70+ 分,胜负手从「模型能力」转向「成本与合规」。Devstral2用0.4美元百万 token 把价格打到骨折,再通过「修改 MIT」堵住大厂免费商用漏洞;轻量版则彻底开源,抢占本地部署心智。对于开发者而言,「免费24B + 低价1230B」组合意味着:本地写代码、云端跑重活,无需再为 Copilot 订阅买单。AIbase 将持续跟踪其量化版本与128k 长下文发布。