行业热点走势
Industry Focus

DeepSeek,搅了谁的局?

来源: 作者: 责任编辑:
2025-02-19

         DeepSeek,搅了谁的局?

        上一次AI行业引起全民震动还是2022年11月ChatGPT的横空出世,此后AI行业每逢重大变革,都被称为是“ChatGPT时刻”。
这个词在2024年年底被改写,“DeepSeek时刻”出现,被看作是AI历史上的新转折点。
        2025年春节前期,中国杭州的一家AI企业DeepSeek(深度求索)接连发布了V3(2024年12月26日)和R1(2025年1月20日)两大开源模型。
       其中,DeepSeek宣称V3在性能上接近闭源模型OpenAI的GPT-4o与Anthropic的Claude-3.5-Sonnet,优于开源模型Meta的Llama 3,且总训练成本仅为557.6万美元。推理模型R1的效果则逼近OpenAI o1,同时API(应用程序编程接口)价格仅为OpenAI o1的3.7%。
        成立于2023年7月17日的这家初创企业,虽年轻却拥有万张英伟达芯片。凭借这一优势,该公司在海外AI巨头的约7%成本基础上,成功训练出性能卓越的大模型。自2024年5月发布V2模型以来,它便引领了中国大模型市场的价格竞争。字节跳动、阿里巴巴、百度等巨头纷纷将其纳入视线。年末,这场价格战更是蔓延至海外市场。
       DeepSeek的出现,一度让全球算力概念股暴跌,叠加美股科技股普跌的影响,英伟达股价下跌近17%,市值蒸发近6000亿美元,规模创美股史上最大。OpenAI和谷歌也在近期紧急上线最新模型,AI行业堪称烈火烹油。
       DeepSeek爆火之后,硅谷巨头们开始掀桌,OpenAI表示已经发现证据,证明DeepSeek“蒸馏”OpenAI模型的迹象,Anthropic创始人和CEO Dario Amodei发文否认R1取得的突破,并呼吁加强对中国的算力出口管制。
      在这场璀璨的盛宴背后,情绪的波澜已被我们暂且搁置。本文旨在深入剖析,DeepSeek是否真的被过分“高估”,并探讨其未来将如何在国内外AI产业中掀起涟漪效应

                                                   

                                                欲戴其冠,必承其重


   DeepSeek-R1自上线二十余日,既沐浴了无数赞誉,亦承受了同等压力。

   AI领域的专家林志向在「定焦One」平台上对DeepSeek的口碑进行了深入剖析,其成功之处有三:首先,其免费开放的使用政策吸引了众多用户;其次,DeepSeek在与用户互动时,不仅展示其思维过程,更借此优化用户的提问方式,提升对话质量,相较之下,o1则未公开其思考过程,此举措或许出于对竞争对手可能复制并利用其过程的担忧;再者,DeepSeek毫无保留地将技术论文与模型开源,而一些开源的大模型却往往保留最佳版本。

   然而,近期因热度激增而涌入的用户却发现,DeepSeek频繁遭遇宕机,几乎陷入无法正常使用的境地。究其原因,竟是公司服务器遭受了大规模的DDoS恶意攻击。幸运的是,截至本文发稿时,DeepSeek已恢复稳定运行,重新赢得了用户的信赖。

    

   

   当然,DeepSeek的火爆并非仅因其具备用户自发传播的潜力,更在于它让海外AI巨头感受到了前所未有的挑战,甚至出现了“掀桌子”的举动。面对外界对DeepSeek创新性的质疑,该公司已在V3和R1版本的技术论文中作出明确回应:V3模型通过多项自研技术实现了架构创新,如DeepSeekMoE+DeepSeekMLA架构、MTP多Token预测技术,从而实现了低成本训练的可能;R1模型则摒弃了传统RLHF(人类反馈强化学习)中的HF部分,直接通过纯强化学习(RL)进行训练,验证了RL的优先级和有效性,进一步提升了训练效率。


   这也意味着,DeepSeek成功证明了其以不到600万美元的训练成本(可理解为净算力成本),就能打造出一个性能接近巨头的模型。


   然而,半导体市场分析和预测公司SemiAnalysis指出,557.6万美元这一数字主要指的是模型预训练的GPU成本。考虑到服务器资本支出、运营成本等因素,DeepSeek的总成本在4年内可能攀升至25.73亿美元。


   值得注意的是,创新成本下降的趋势早已显现,DeepSeek只是加速了这一进程。方舟投资管理公司创始人兼CEO“木头姐”指出,在DeepSeek之前,人工智能训练成本每年下降75%,推理成本更是高达85%至90%。


   英诺天使基金合伙人王晟也有相同看法,比如年初发布的模型,到年底再发布同样的模型,成本都会有大幅度下降,甚至有可能降至1/10。而且OpenAI作为闭源模型,对外披露的算力成本也有虚高的可能性,因为要留部分利润空间,也要不断对资本市场强化成本很贵的故事,以此得到更高的投资。


   不过,DeepSeek的可贵性并不仅仅在于“便宜”,更在于它是一个“屠龙少年”的故事。


   在ChatGPT横空出世之前,在中国面临算力管制之前,DeepSeek就已经拥有了超万张的GPU储备。这关联到DeepSeek的创始人梁文峰从2008年开始探索的量化交易,因为要将深度学习模型应用于实盘交易,必须储备大量算力,2019年至2021年间,梁文峰的另一家公司幻方相继自主研发了“萤火一号”与“萤火二号”AI集群,囤积大量芯片和技术人才。


   梁文峰在幻方的滋养下,收获了丰厚的资源:充足的计算资源、对人工智能的深刻洞察力以及模型构建的工程化技巧。同时,他亦回馈DeepSeek以同样的价值:非盈利导向、对通用人工智能(AGI)的纯粹好奇心和探索精神,以及开放包容的心态。参与者们回忆,幻方曾以极具吸引力的低价,向算法研究机构慷慨提供所需资源。


   这个故事,因其独特性和美学价值,难以被复制,也由此赋予了DeepSeek一种全民共热的现象级热度。

  

                                                  

                                              DeepSeek,让谁慌了?

     

   自DeepSeek声名鹊起,如同投石入水,激起了层层涟漪。这不仅掀起了轩然大波,中美两国产业链上中下游的众多企业亦纷纷感受到了这场变革的冲击波。
   首当其冲的要数chatbot类(聊天机器人)AI应用,根据AI产品榜的数据,DeepSeek在2025年除夕前后,日活超过2000万,超越国内的豆包和Kimi登顶中国第一。同时,DeepSeek仅  用一周就用户破亿,而ChatGPT用时2个月。

       

         

实际上,与DeepSeek发布R1同步,月之暗面亦推出了自家的Kimi k1.5思考模型,并慷慨地向公众免费开放。与此同时,豆包APP亦升级了实时语音通话功能,全面向用户开放。然而,这两大举措似乎并未引起足够的关注,其声量被淹没在喧嚣之中,日活跃用户数亦受到了影响。

林志认为,这件事充分展示了用户对chatbot这种模式的忠诚度是很低的,一旦出现了更强大更便宜更快的模型,大家就会迁移过去。


 豆包产品已成功融合多模态大模型技术,展现其产品形态的先进性。相比之下,DeepSeek虽在除夕之夜(1月28日)推出了开源的文字生成图像大模型Janus-Pro 7B,但其在网页及APP中的应用尚未实现,且目前仅提供对话功能,用户体验尚显不稳定。这一差异不禁让人思考:在人工智能的赛道上,如何平衡技术创新与用户体验,或许是每个追求卓越的企业都需要深思的问题。

 在杀手级应用问世之前,市场竞争的核心在于背后大模型技术的较量。当前,DeepSeek对行业的影响已波及至第二批自研大模型企业。
   从投资人的角度审视,王晟指出,自2024年5月DeepSeek发布V2模型引发中国大模型价格战以来,业内普遍认为,在国内巨头中,阿里的Qwen模型表现最佳;豆包虽在2023年尚显不足,但2024年下半年进步显著。在创业公司阵营中,DeepSeek与月之暗面(Kimi)的增速最为迅猛。

 而其他“五小龙”——零一万物、MiniMax、百川智能、智谱AI、阶跃星辰——有的转向,有的退出,有的依托国资背景,但整体增长势头逐渐放缓,六小龙的格局亦趋于瓦解。
   这些闭源大模型企业,某种程度上,亦需应对与国外巨头相似的挑战:如何降低训练成本?是否拥有更高效的训练途径?API价格战是否还将持续?
在这场无声的竞赛中,技术的革新与市场策略的调整成为企业生存与发展的关键。
   在探讨DeepSeek是否将重塑芯片市场的版图时,业界专家普遍认为,算力竞赛虽将持续,但当前正处于一个重新评估的关键时期。曾几何时,英伟达的热潮席卷全球,其股价如今虽已回归理性区间,但长远来看,其价值无疑将再攀高峰。换言之,英伟达并非DeepSeek的牺牲品,反倒是随着模型应用领域的不断拓展,模型的“平权化”趋势愈发明显,对算力的渴求亦日益增强。
   DeepSeek引领行业从对AGI极限的追求中抽身,转向对产业落地的现实关注。它以低廉的成本提供高效的能力,推动产业链创新,助力AI原生应用与AI硬件的蓬勃发展。“2025年,AI商业化落地将迈入新纪元”,林志如此断言。
   DeepSeek的成功验证了我国AI产业从芯片到模型的部分国产化替代可能性,极大地提振了产业信心。春节期间,国内云服务与GPU厂商纷纷部署DeepSeek。
   然而,随着DeepSeek逐渐成为行业焦点,其自身的选择可能成为最大的挑战。
   据悉,阿里巴巴正计划以100亿美元的估值,投资10亿美元收购DeepSeek10%的股权。这一估值已超越月之暗面(33亿美元)和智谱AI(20亿美元)。尽管阿里巴巴方面对此消息予以否认,但有人指出,依托幻方的DeepSeek此前从未寻求过融资。

尽管如此,市场仍担忧其他战略方可能正在接触DeepSeek。
在这个春节,市场或许正面临着最不愿见到的结局。DeepSeek,一个曾被誉为“泼天富贵”的公司,原本是一家追求独立自主的企业。

梁文锋,这位公司的代表,曾向媒体透露,与那些大型企业所采用的模型相比,DeepSeek的最大特色在于其完全的自由性:“大厂往往与平台或生态紧密相连,而我们是彻头彻尾的自由之身。”然而,有人担忧,若DeepSeek此次接受了任何战略投资方的资金,AI界的“六小龙”故事或许将在其身上重演。

                                                                                                                           

                                                                                                           

            DeepSeek的新范式,

                                                                                                                                还有成长空间

        放到更大视角来看,DeepSeek的崛起之所以被海外巨头如此重视,背后是两种路径的对比。
       王晟解释,AI产业在跑通AGI方向上往往有两种不同的路径选择:一个是“算力军备”范式,堆技术堆钱堆算力,先把大模型性能拉至一个高点,不断推高AGI的能力上限,再考虑产业落地;另外一个是“算法效率”范式,一开始就以产业落地为目标,通过架构创新和工程化能力,推出低成本高性能模型。
      可以看到,以往大模型公司之间的竞争,基本都是押注“算力军备”范式。在这种范式下,OpenAI、Anthropic、谷歌,包括国内AI六小龙等企业,都是重资本投入型企业。
因为需要巨大的资金量,这意味着资本市场只能支持少数几家企业,AI巨头的市场集中度远高于其他行业。
      DeepSeek-R1发布之际,美国总统特朗普宣布了一个总额达5000亿美元的AI基础设施项目“星际之门”,OpenAI、软银和甲骨文等都已承诺参与其中。稍早前,微软表示2025年将在AI基础设施上投入800亿美元,扎克伯格则计划在2025年为其AI战略投资600多亿美元。
      一个无法忽略的市场环境是,过去大家都在追求AGI能力的不断增长,只要模型性能增长的够快,竞争对手在后面无论怎么进行数据工程优化都追不上头部企业。但是到2024年11月左右,“高质量文本训练数据即将被消耗殆尽”的论调敲响了行业警钟,如果数据供应停滞,模型训练也可能停滞,大家意识到之前比较粗放的训练模式确实可能存在瓶颈,即使往上堆算力,延长训练时间和增大数据量级,能力增长也几乎到头了。

   在这个时间点,其实也有企业认为“算法效率”范式是当下可行的范式,只是DeepSeek先做出来了。“它的一系列模型也证明了,在天花板涨不动的情况下,把重点放在优化效率而非能力增长上的范式也具有可行性。”王晟称。
   这样的背景下,DeepSeek以一个“搅局者”的身份出现,美国AI巨头“花钱砸模型很值”的资本故事逐渐不成立了。
   DeepSeek以开源模型入场,被视为是靠生态的力量去挑战领先者,而领先者为了怕被搅局,通常会越来越封闭。
   “其实中美的主流路线已经完全反过来了”,林志称。在阿里Qwen性能追赶上来之前,全球最主流的开源模型是Meta的Llama,在海外市场,Llama一度落后于OpenAI跟Claude等闭源模型,但在国内,目前在大模型上支大旗的反而是开源模型。
   不过,也有不少业内人士认为不应该过分乐观,因为DeepSeek只能说是给2025年开了个好头,竞争还在继续,差距依旧存在。
   近期,几大海外巨头就推出了新模型。2月1日,OpenAI发布最新推理模型o3-mini系列,这是OpenAI首个开放给免费用户的推理模型。2月6日,谷歌官宣Gemini 2.0家族更新,其中Gemini 2.0 Flash-Lite版本被称为谷歌目前为止性价比最高的模型。
   正如梁文锋自己所说,虽然具体技术方向一直在变,但模型、数据和算力这三者的组合是不变的。数据工程也是其中很重要的一环,OpenAI虽然面临侵权问题但积累了自己的数据库,豆包因为TikTok事件影响也宣称自己不会进行数据蒸馏,“原生搭建的数据库”成为大厂的护城河之一。
   另外,王晟提到,根据Trade-off Curves(取舍曲线),DeepSeek选择的路径意味着它的精力重点在于工程优化,那就很难在能力上限上取得突破,“它用现有方法继续迭代新版本,能力能提升多少?这是个问题。”
   从学生时代起,梁文锋就展现出探索AGI的热情和不断创新的追求,DeepSeek此前只是躲开了无效或失败的尝试,但我们也不应该否认前一种路径中,巨头们不惜代价,通过各种未知的尝试来拓宽AGI边界的努力。
   DeepSeek搅动的这一片汪洋,涟漪还在继续扩大。

上一篇 下一篇

返回行业热点走势列表
推荐阅读