近日,DeepSeek 发布了最新版本的V3.1模型,官方将其定位为迈向智能体时代的里程碑式升级。此次更新的最大亮点在于其创新性的混合推理架构,使得单一模型能够同时支持快速响应与深度思考两种模式。

相较于前代DeepSeek-R1-0528,V3.1通过思维链压缩训练技术显著降低了生成内容的token数量(减少幅度在20%至50%之间),这一优化不仅提升了处理速度,还大幅降低了使用成本。

在技术参数方面,V3.1采用了128K上下文扩展和FP8精度推理,显著提升了吞吐效率与能耗表现。这些改进为模型的大规模应用奠定了坚实基础。

值得注意的是,在代码修复、命令行任务等编程相关场景中,V3.1展现出了更卓越的执行能力与稳定性。它能够独立完成多轮迭代修正,有效避免了"越改越乱"的问题。

在复杂搜索任务方面,V3.1同样表现不俗。它具备规划搜索步骤、筛选信息和整合多源数据的能力,在多项高难度多学科测试中,其性能远超前代模型。

在商业策略层面,DeepSeek采取了"双轨制":一方面继续提供API服务,并计划自9月6日起调整价格并取消夜间优惠;另一方面,V3.1的Base模型及其后训练版本已在Hugging Face和魔搭平台上开源。

关于技术细节方面,V3.1采用了UE8M0 FP8 Scale的参数精度设置。这种设计主要是为了适配新一代国产芯片的技术标准。官方建议有部署需求的用户仔细阅读新版说明文档。

此次更新还被认为是对抗GPT5的重要举措。两者在超长上下文支持、复杂任务处理能力以及基础模型调用灵活性等方面都展现出高度相似性,同时V3.1在成本控制上也更具弹性。