DeepSeek V4 研讨会
转载自《智能涌现》公众号:《别急着 All-in DeepSeek V4,先看看这 10 位从业者的真心话》
文 | 周鑫雨 王毓婵
编辑 | 杨轩
解读 DeepSeek V4 的技术报告,是这几天 AI 行业最狂热的集体活动。
V4 很强吗?在工程优化的维度中,答案是毋庸置疑的。过去,大家信奉 “Scaling Law 的暴力美学”——也就是靠堆更多优质算力、更大参数规模来提升模型性能。而 V4 走的是一条完全不同的路,它定义了一种 “模型训练的克制美学”:
它不靠疯狂堆算力和参数,而是通过一系列组合优化和重构:
- 注意力机制(让模型学会 “抓重点”,像人读长文章时会自动关注关键句子一样)
- MoE 架构(混合专家模型,可以理解为 “让不同的专家负责不同类型的问题,每次只激活少数专家,省时又省力”)
- 后训练(模型初步练成后再针对性地补课强化)
- 推理系统工程(优化实际运行时各个环节的效率)
这样做的成果是把 V4-Pro 在处理百万 Token(大约几十万字)长上下文时需要的算力,压低到了上一代 V3.2 的 27%,同时用来临时存储对话上下文的 KV 缓存(可以理解为模型在跟你聊天时 “记笔记” 的草稿纸)被压缩到了原来的 10%。
不过,工程只是工程,榜单只是榜单。
评价一个模型,我们不希望只停留在纸面参数上,而是放到部署、开发、投资的真实场景中去讨论 V4 的价值。为此,我们邀请了近 10 名开发者、应用创业者和投资人,进行了三天左右的体验和测试。
先说一个反直觉的结论:DeepSeek 对应用层带来的影响,或许比模型层更大。
在惊叹极致的工程优化之余,正如 DeepSeek 自己在 V4 技术报告中坦言的那样:发展轨迹大约滞后前沿闭源模型 3 至 6 个月——V4 如今的成果,就好比与魔鬼做交易:拉长了推理和 Agent(智能体)能力的长板,代价是牺牲了部分准确性。
闭源模型厂商们,暂时可以松一口气。对于注重稳定、精确的商业世界而言,V4 显然不是一款能够直接落地的模型。
Pine AI 首席科学家李博杰,以及某头部 Coding Agent 创业者 Chillin 都对我们直言,工具调用稳定性 + 幻觉率,这两点必须在 harness(给智能体套上的 “缰绳” 和 “安全带”,用来规范它的行为、降低出错风险)层面补足,V4 落地离不开 “脚手架”。
但智力大脑的迭代方向,往往牵动着下游应用的生态。AI 应用创业,将会面对技术和资本更严厉的双重考验。
“基模的性能还在快速迭代”——这句业内的共识,也意味着应用随时可能成为被模型颠覆的沙砾。一名双币基金的投资人举了不少 “昨日黄花” 的案例:”Workflow、Coding……”
AI 应用公司 “涌跃智能” 创始人兼 CEO 陈炜鹏总结:未来,AI 应用的壁垒,是把模型、Agent、产品场景和数据反馈组织成一个可靠、低成本、可规模化的生产系统。
亮点:不只有长文本和编程能力,而是高能力还成本低
写在前面:核心优势——代码与智能体能力
在几个关键的代码和软件工程评测中,V4-Pro 展现出了当前开源模型的最高水平,与顶尖闭源模型几乎不相上下。
PingCAP 联合创始人兼 CTO 黄东旭
我正在把自己的 Hermes 工作流迁移到 DeepSeek V4 上。原来我用得比较浪费,是用 Claude Opus 和 GPT5.4 来做 Agent,但后来我发现,大多数日常工作其实并不需要特别高的 coding 能力。
日常办公任务,主要包括:(a) 日常邮件整理;(b) 文章撰写;(c) 日历管理;(d) 内容总结;(e) 网络浏览。
现在我已经完全切换到 DeepSeek V4 了。它的效果比我想象中要好,可能是针对中文做了一些优化,整体语言能力比 Opus 和 GPT 更符合中文母语者的使用习惯。
所以我第一个结论是:如果你现在正在用一些更贵的模型来作为日常工作助理的 Agent,其实可以比较放心地切换到 DeepSeek V4 Pro 上。
它的能力大概在 Claude Sonnet 4.5 到 4.6 的水平,但价格只有头部模型的四分之一还不到。现在我基本上已经不用再关注 Agent 的成本开销了。
DeepSeek V4 的论文里一直在强调 1M 的上下文,但这点我其实感觉不是太强,因为现在主流的 SOTA 模型基本上至少也都是 1M 的上下文了,这只是追赶上了。
它真正的点在于:
- 成本真的非常低;
- 它是一个开放开源的模型。
我不用太担心 Anthropic 或者 OpenAI 如果断供,我之前的一些工作流就不能用了,这种事情之前其实发生过。在这一点上,切到 DeepSeek V4,安全感是更高的。
其次,看编程能力。因为测试时间还比较短,我还没有用它来开发非常复杂的大型系统应用。
但在大概几千行代码的规模,或者做一些小型应用,以及处理充满各种外部第三方系统调用的场景(比如去 Supabase 或者 TiDB Cloud 上,通过阅读文档去接入一个它不太熟悉的工具),目前我的体感是基本上没有出现太大的问题。
在几千到一万行的规模里,V4 one-shot(一次性给足例子和指令,不额外调试)的成功率还是比较高的。
所以如果你只是做一些简单的小网站或者小型应用,我觉得 DeepSeek 的编程能力肯定比前一代要强非常多。
因为现在我的 Harness 框架其实并没有太复杂的人为编排,更多是依靠模型自身的协同能力(使用 Slock.ai)。
简单来说,有以下两点:
- 它能够跟使用其他模型的 Agent 进行协同;
- 它完成一些简单的 / 具体的任务。
所以,如果前面有一些比较强的模型(例如像 GPT5.5 这种级别的)去给 DeepSeek V4 Pro 指方向,然后让它负责执行,这种模式我觉得能让整个 Harness Engineering 的成本大幅下降。
零一万物技术与产品中心副总裁 赵斌强
DeepSeek V4 不是 “最全能的”,但它是 “最值得信赖的”——坚定的开源承诺、完整的技术报告、极低的推理成本、全技术栈国产化,让它成为 ToB(面向企业)场景下性价比最优的基础模型选择。
DeepSeek V4 最让我惊艳的是两件事。
第一,模型架构的底层创新。在 100 万 Token 上下文窗口下依然保持高质量推理能力,背后是混合注意力机制的底层创新。这种机制可以通俗地理解成:”粗读” 快速扫描全文定位重点,”精读” 只在关键处耗费心力,从而用很低的成本处理海量信息。
尤其是在 Context 压缩方面的探索非常先进,而且 DeepSeek 在技术报告中毫无保留地公开了细节。这种坦诚和开源精神,在竞争激烈的大模型行业中极为宝贵。
第二,国产算力全栈适配。DeepSeek 完成了华为昇腾 910B/950 的适配,在量化、稀疏化机制、领域 expert 优化等方面的工作做得非常细致。
这意味着从芯片到底层软件到模型训练、推理,国产全栈解决方案已在正确的方向上迈出了实质性一步。虽不能说完全摆脱对英伟达生态的依赖,但已经找到了正确的发展方向。这件事的难度和意义,怎么强调都不为过。
Pine AI 首席科学家 李博杰
最惊艳的是 DeepSeek 把 MoE、CSA+HCA 混合注意力、mHC、Muon、FP4QAT 这一长串架构创新真正在 1.6T(1.6 万亿参数)这个目前最大开源规模上跑通了。
这就像把一堆理论上很先进、但在小规模实验里经常失效的技术,成功组合到一台巨型引擎上并稳定运转起来。我们自己试过 20 多种架构创新,结论几乎都是 “在 70 亿参数规模上可行,一上规模就掉链子甚至反作用”。
其他家的模型架构创新大多也卡在这一步。能在最大规模上让多项创新协同工作,说明 DeepSeek 底层训练的技术积累极深,仅其中一项 “mHC” 技术,就把原来在 27B 实验里近 3000 倍的信号放大,压到了约 1.6 倍,让训练变得稳定可控。
联想集团副总裁,联想创投首席投资官、高级合伙人 宋春雨
DeepSeek 证明了 “AI 性价比” 可以成为一种主动设计出的结构性优势。
27%、显存占用仅 10%。同时,其 1.6T 总参数量大,但每次仅激活 49B 参数,效率极高。
这种结构性降本,再加上 V4-Flash 版本 API 1 元 / 百万 Token 的低价策略,使得 “平民化超长上下文” 成为了 AI 应用的新基准。
涌跃智能创始人兼 CEO 陈炜鹏
DeepSeek V4 最让我振奋的,不只是某个单点能力的提升,而是它说明国内大模型已经从 “追赶基座能力”,进入到 “参与 Agent 时代系统竞争” 的阶段。
过去大家更关心模型会不会回答、推理、写代码;但到了今天,真正重要的是模型能不能在复杂任务中稳定完成目标,能不能以足够低的成本、足够高的效率接入真实产品系统。
遗憾:真正落地,V4 还缺一些 “脚手架”
写在前面:相对劣势——事实性知识与极端复杂推理
DeepSeek 官方和各评估平台指出了 V4-Pro 的几个明显弱点。
Pine AI 首席科学家 李博杰
我主要使用的是代码类和 Agentic 任务。这一类工作里:
- V4-Pro 的工具调用能力和通用世界知识,基本追平了前沿模型的次一档版本(大致相当于 Claude 4.6 Sonnet 水平);
- 但工具调用稳定性 + 幻觉率仍然是硬伤——这两点必须在 Agent Harness 层面补足(比如加强校验、失败后自动重试、用外部知识库让模型 “接地气”、把工具使用规范定得严格清晰),否则在长链条任务里,任务链路一拉长,错误就会被不断放大;
- 一旦 Harness 层补好了这两个缺陷,整体推理成本能比前沿模型低好几倍。这才是真正的杠杆。
另一条线是:V4-Flash 作为垂直微调的 “甜点” 是非常好的。什么叫垂直微调?就是在通用模型基础上,用特定领域的专业数据再 “补课”,让它成为某个行业的专家。
1.6 万亿参数的超大模型做后训练(SFT/RL)成本太高,一般公司根本负担不起,而 2000 亿到 3000 亿参数的模型才是市场做后训练的主力尺寸。我们之前在千问 235B(2350 亿参数)上做后训练,效果明显弱于同尺寸的 V4-Flash。
Flash 的性能已经追上前一代万亿级开源模型,超过 600B 多的 DeepSeek V3.2 和老版 Kimi。Flash 会成为做业务微调的首选基座。
Coding Agent 创业者 Chillin
我们内部测评后得出的结论是:在 Coding Agent 场景下,DeepSeek V4 是 Claude 一年多前的水平。
问题可能出现在两方面,一是参数规模,二是数据。DeepSeek 和 Anthropic 还有比较显著的差距。
如果要真正落地,DeepSeek V4 还需要一些特殊的脚手架,比如 SWE-Agent(软件工程智能体)、OpenHands(一个开源 Coding 智能体)、Claude Code、OpenClaw。这都需要开发者额外配置。
涌跃智能创始人兼 CEO 陈炜鹏
以 Loopit(涌跃智能旗下的 AI 互动内容产品)的实际使用(主要是 Coding 场景)来看,要客观看到,DeepSeek V4 在执行复杂长程任务的稳定性和任务完成率上,距离海外最强闭源模型仍有差距。
国内头部模型之间的能力差异在变小。这说明模型竞争正在进入一个新阶段:在 Agent 时代,模型能否理解长上下文、适应复杂框架、稳定完成长程任务,并以可接受的成本和速度运行,会变得同样重要。
真正拉开差距的,不只是模型本身,而是模型、后训练、Agent 框架、评估体系和工程效率形成的整体系统。
联想集团副总裁,联想创投首席投资官、高级合伙人 宋春雨
V4 的发布没有包含原生多模态版本(即同时能处理文字、图像、声音等的模型),这在当前市场环境下稍显遗憾。
但结合其全面拥抱国产算力的战略,这很可能是为了集中资源攻克最核心的算力底座问题而做出的阶段性取舍。
零一万物技术与产品中心副总裁 赵斌强
说 “不及预期” 有点鸡蛋里挑骨头。
但如果从 ToC(面向个人用户)角度来看,产品化打磨还不够——Flash 版本涉及创作、编程等复杂任务,能力略显不足;Pro 版本虽然接近顶级闭源模型水准,但起步算力要求较高,存在入门门槛。
影响:AI 并不是简单地越来越便宜
涌跃智能创始人兼 CEO 陈炜鹏
一个重要趋势是,AI 并不是简单地越来越便宜。
全球最旗舰模型的调用成本其实在上升,因为它们承载的是更高复杂度、更长上下文、更高价值的任务。真正快速变便宜的,是中层模型、开源模型和可自部署模型。
所以未来应用公司不会只问 “哪个模型最强”,而是要建立一套模型调度系统:哪些任务必须用最强模型,哪些任务可以用高性价比模型,哪些能力可以通过 Agent 框架和工程系统补足。
DeepSeek V4 的意义在于,它进一步丰富了模型供给层。
对企业来说,它不是简单替代某一个海外模型,而是让应用可以更灵活地做多模型编排、自部署和成本优化。
未来 AI 应用的壁垒,也不会是简单调用一个模型,而是把模型、Agent、产品场景和数据反馈组织成一个可靠、低成本、可规模化的生产系统。
对 Loopit 来说,这个趋势非常关键。我们做的是 AI 互动内容,模型能力决定创作上限,成本和速度决定创作能否规模化。
只有当不同层级的模型都足够可用,并且能够被有效编排,普通用户的大量创意才有可能被实时生成、互动和传播。DeepSeek V4 的进展,会加速这个过程。
Pine AI 首席科学家 李博杰
在垂直微调市场,千问、Llama 等 200-300B 档基座被 V4-Flash 系统性替换。
所有做该尺寸后训练的团队都会重新评测;Flash 同尺寸效果反超、推理框架 Day-0 适配齐全(SGLang/vLLM/TileLang),6 个月内会成为国内开源垂直模型的默认起点。
华为昇腾 950 SuperNode 推理生态正式起步,并冲击英伟达芯片溢价。
这是第一个完整跑通的 “国产芯 + 国产顶级开源模型” 方案(NVIDIA/AMD 都没拿到 V4 的早期适配),下半年 950 大规模出货后,Agent 长上下文场景里会出现一波纯本土推理替换;
这间接影响是英伟达在中国市场的估值与溢价被重新定价——不是销量崩,是议价能力被压。
能完成复杂长程任务的 Agent 整体使用成本大幅下降。
V4-Pro 输入 (缓存未命中) 1.74 美元 / 输出 3.48 美元 +1M 上下文高效 KV+MegaMoE 已经把单 Token 成本压到前沿模型的 1/6-1/7;
只要业界在 Agent Harness 层把 V4 的工具调用稳定性和幻觉率补齐(验证器、外部接地、严格 Schema、自一致性投票),那些过去因为成本无法实用化的多步研究、长程代码 Agent、深度搜索类应用会在今年下半年走出 demo 进入真实业务,Agent 经济性的拐点就在这一波。
以及,闭源前沿厂商不会因此降价——它们的产品仍然显著领先,V4 不构成定价压力。
零一万物技术与产品中心副总裁 赵斌强
ToB AI 应用的核心命题是:在保证效果的前提下实现全周期的成本控制。DeepSeek V4 的出现为这一命题提供了极具竞争力的解法。
Flash 覆盖简单任务,Pro 覆盖高复杂度场景,整体成本相比主流闭源方案会大幅降低,让零一万物在交付时能够显著提升方案性价比。
更重要的是,DeepSeek 的开源是坚定的、不摇摆的,不会突然宣布闭源让应用的投入打水漂。这种坚定的开源姿态为企业级技术选型提供了宝贵的确定性。
零一万物内部已经全面启动基于 DeepSeek V4 的产品评测与能力验证,重点评估其在生产调度、智能办公、投资管理等企业核心场景中的表现,验证达标后会考虑替换原有模型,让更多行业客户用上顶级国产大模型。
V4 发布后,我认为行业会主要产生三个变化:
1. 国产全技术栈解决方案进入发展轨道,国产化替代从 “梦想” 变 “现实”
DeepSeek 成功适配华为昇腾,意味着国内 AI 产业在 “芯片 + 框架 + 模型 + 应用” 全技术栈国产化的方向上迈出了实质性一步。
对于有合规要求的政企客户,这是刚需。ToB 市场的国产化替代进程将明显加速。
2. 开源大模型倒逼闭源降价,AI 应用业务减少被闭源模型吸血
DeepSeek 用远远低于顶级闭源模型的价格实现了接近顶级闭源模型的效果,它的示范效应会进一步拉高开源模型的整体性能。
这也会迫使 Anthropic、OpenAI 等闭源模型厂商的高价策略面对压力。行业利润中心将从基座模型向深度行业应用迁移,对 AI 长期的发展极有益处。
3. 开源模型 ≠ 企业应用,Harness 能力成为新分水岭
开源降低了基座门槛,Harness 决定了落地高度。从优质开源模型到稳定可靠的企业级产品,中间还隔着 Harness 这一层,包括幻觉消除、指令遵循、错误校验、专业性注入等工程能力。
每个行业的需求不同,没有一套 Harness 是通用的。这恰恰是零一万物的核心优势所在:基于自动评测、自动反馈、自动改进、专业性注入,为不同行业快速构建专属的 Harness 体系,让大模型真正在业务中用起来。
联想集团副总裁,联想创投首席投资官、高级合伙人 宋春雨
第一,百万级上下文成为应用层的 “标配”,催生 Agent 爆发:V4 将超长上下文能力下沉为普惠基础设施。
第二,行业竞争从 “卷模型” 转向 “卷应用与数据”:当顶级开源模型性能逼近闭源、成本大幅下降后,模型本身将不再是稀缺壁垒。未来的投资与竞争焦点,将更明确地转向谁能利用这些基础模型,在医疗、金融、法律等高价值垂直场景中建立数据与应用闭环,形成商业护城河。
第三,国产算力产业链迎来巨大投资机遇:V4 的成功,向业界证明了大模型在国产算力上也能摘取 “皇冠上的明珠”。这必然催生对国产算力的确定性需求,带动从芯片设计、服务器到云服务的全产业链投资热潮。
我们判断,”今年的国产算力,就是去年的海外算力”,其产业趋势和资本市场的映射效应将尤为强劲。
我们会把资源向 “能快速商业化、能落地行业、能形成产品壁垒” 的项目集中,同时保持对底层架构与算力基础设施的长期投资。
某双币基金投资人
我今年的愿望是:基模 Portfio(被投资方)顺利上市。
DeepSeek 启动融资后,一定会吸收一级市场(尤其是国资)的大量资金。对剩下几家还没 IPO 的基模公司来说,继续滚动融资是不可持续的。
我还有个比较悲观的观点:今年应用层融资会比较困难。
基模能力还在快速迭代,意味着一大批应用会被颠覆。就像去年非常火热的 Coding、Workflow,今年一级市场已经没什么人提了。
Coding Agent 创业者 Chillin
开源是一个好事,DeepSeek V4 能进一步推动交流和优化。但是这个时间距离拉的很大,让人感觉比较难受;
DeepSeek V4 会迫使模型厂更加正面地面对规模和数据的问题,然而这两个问题极难解决,这是资本量的问题;
它也进一步地证明了 Scaling Law 的极限。工程化带来的性能跃升是有限的,这迫使所有人去找更底层的解。路漫漫其修远兮。
Bonus:一份 DeepSeek V4 实用指南
适合干什么
- 编程与代码学习:如果你是编程初学者或需要编写个人脚本,DeepSeek V4 是目前最顶级的选择之一。它能非常可靠地理解上下文、生成高质量代码,并且极擅长代码调试。
- 中文及中日韩(CJK)内容创作:无论是写文章、润色文案还是进行翻译,V4 在中文、日文和韩文环境下的表现极其优异。
- 超长文本阅读与分析:V4 原生支持高达 100 万 Token 的上下文窗口。你可以一次性将整本书、数万字的长篇报告或完整的代码库直接喂给它,让它帮你总结或提取关键信息。
不适合干什么
- 搜索与查证客观事实:V4 是一款 “推理模型” 而非 “百科全书”,它在事实性知识(如历史细节、特定实体信息)的回忆测试中表现较弱,且极容易产生幻觉。特别是 V4-Flash 版本,在事实问答测试中得分仅有 34.1%。建议:不要用它来当搜索引擎,查证事实请使用带搜索功能的其他 AI 或自己核实。
- 处理图片或文档排版:DeepSeek V4 是一个纯文本模型,不支持任何图像输入或输出(No Vision)。如果你需要分析图表或图片,请使用其他多模态模型(如 GPT-5.4 Mini)。
- 纯英文的高级创意写作:虽然它能写英文,但它的英文输出有时会显得行文生硬(stilted phrasing),如果你需要创作高度自然、地道或富有创意的纯英文内容,建议使用其他西方主流模型。
其他须知
- 给予充分的思考空间:如果你使用的是具备显式思维链(CoT,即模型在给出答案前会先一步步推理,类似于 “先打草稿再誊写”)的 Pro 版本,遇到难题时,不妨在提示词中鼓励它 “多想几步” 或开启 “Think Max” 模式,它推导得越深入,给出的答案往往越准确。
- 容忍偶尔的啰嗦:评估显示 V4 是一款相对 “啰嗦” 的模型,输出速度也偏慢。如果你只想要简短的答案,可以在提示词中明确要求 “请用一句话回答” 或 “请尽量简短”。