米兰·(milan)-DeepSeek
2026-05-12 13:24:44||273次|新闻资讯

【CNMO科技动静】4 月 24 日,DeepSeek全新系列模子DeepSeek-V4的预览版本正式上线并同步开源。该模子主打百万字超长上下文能力(1M tokens),于 Agent能力、世界常识及推理机能上均实现海内与开源范畴的领先。

DeepSeekDeepSeek

DeepSeek-V4 分为Pro与Flash两个版本。此中,DeepSeek-V4-Pro的机能可对于标顶级闭源模子,其 Agent 能力比拟前代模子显著加强,于Agentic Coding评测中已经到达当前开源模子最好程度。据官方先容,DeepSeek-V4已经成为公司内部员工利用的Agentic Coding模子,评测反馈利用体验优在Sonnet 4.5,交付质量靠近Opus 4.6非思索模式。于世界常识测评中,V4-Pro年夜幅领先其他开源模子,仅稍逊在顶尖闭源模子Gemini-Pro-3.1;于数学、STEM、竞赛型代码测评中,V4-Pro逾越当前所有已经公然评测的开源模子,取患了比肩世界顶级闭源模子的优秀成就。

DeepSeek-V4预览版上线并开源 性能对标世界顶级模型

DeepSeek-V4-Flash则是更快捷高效的经济之选。该版本于世界常识贮备方面稍逊V4-Pro,但揭示出了靠近的推理能力。因为模子参数及激活更小,V4-Flash可以或许提供越发快捷、经济的API办事。于Agent评测中,V4-Flash于简朴使命上与V4-Pro半斤八两,但于高难度使命上仍有差距。

于技能立异方面,DeepSeek-V4创始了一种全新的留意力机制,于token维度举行压缩,联合DSA稀少留意力(DeepSeek Sparse Attention),实现了全世界领先的长上下文能力,而且比拟传统要领年夜幅降低了对于计较及显存的需求。按照此前泄露的技能规格,该模子采用DSA2留意力机制,交融了DSA与NSA两种稀少留意力技能;MoE混淆专家技能采用Mega内核交融方案,每一层包罗384个专家,每一次激活6个。

版权所有,未经许可不患上转载

-米兰·(milan)


相关阅读

全国服务热线
400-607-5688
公司地址
北京市昌平区回龙观高新四街 6号院1号楼5层
公司邮箱
milan.com
版权所有:milan.com米兰科技有限公司  京ICP备18004735号-1 京公网安备 11011402010817号
400-607-5688
在线咨询
京东商城
返回顶部
电话咨询
在线咨询
返回顶部