一场名为“DeepSeek”的风暴,正在席卷全球。
近日,国产AI DeepSeek在中国、美国的科技圈受到广泛关注,甚至被认为是大模型行业的最大“黑马”。在外网,DeepSeek被不少人称为“神秘东方力量”。1月27日,DeepSeek应用登顶苹果美国地区应用商店免费App下载排行榜,在美区下载榜上超越了ChatGPT。同日,苹果中国区应用商店免费榜显示,DeepSeek成为中国区第一。当日,美国三大股指开盘即暴跌,美国主要科技股均遭遇股市地震。话题“DeepSeek”冲上热搜第一,其他相关话题也刷屏热搜。
DeepSeek是啥?
DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月17日,是一家创新型科技公司,专注于开发先进的大语言模型(LLM)和相关技术。
去年12月DeepSeek-V3发布后,AI数据服务公司Scale AI创始人Alexander Wang就发帖称,DeepSeek-V3是中国科技界带给美国的苦涩教训。“当美国休息时,中国(科技界)在工作,以更低的成本、更快的速度和更强的实力赶上。”今年1月20日,DeepSeek正式开源R1推理模型。
据DeepSeek介绍,其最新发布的模型DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。
这一模型发布后,引发了海外AI圈众多科技大佬的讨论。例如,英伟达高级研究科学家Jim Fan就在个人社交平台上公开发表推文表示:“我们正身处这样一个历史时刻:一家非美国公司正在延续OpenAI最初的使命——通过真正开放的前沿研究赋能全人类。看似不合常理,但最有趣的结局往往最可能成真。”
DeepSeek为何突然爆火?
数据显示,DeepSeek应用上线20天,日活突破了2000万。而据报道,“DeepSeek爆火的原因主要可以归结为两点:性能和成本。”
DeepSeek有多好用?一位用户表示,以往的AI大模型都是只给出结果,但是DeepSeek会给出其思考和过程,更加可信,“不论是让它写一段代码,还是进行数学运算,它会首先给出它的推理过程。比如需要先算什么,这步的步骤是什么,再算什么,这步的式子怎么列,答案是什么……这让推理逻辑变得十分清晰、有迹可循,我们也更加敢于信任AI。”
此外,它的中文表达能力十分惊喜,可以模仿许多作家的口吻来表达,“用古龙体写小说,甚至用二次元体,都可以写得很溜。以往的AI写作,看起来写得也不错,但是要么是没有感情,堆砌辞藻,要么是文体别扭,缺乏灵魂。DeepSeek则细节满满。”
最重要的是,它完全免费,“能力差不多的ChatGPT,宣称免费,但实际上每月需要花费200美元才能完全使用!”用户表示。
除了体验更好,对于资本市场来说,DeepSeek更大的惊喜来自它的推理成本大幅降低。有数据显示,最新版的推理大模型DeepSeek-R1,输入token定价为0.55美元/百万(OpenAI为15美元/百万),输出token为2.19美元/百万(OpenAI为60美元/百万),成本降低超90%。而此前DeepSeek-V3仅用550万元研发成本、2000张显卡打造,却达到与Llama 3 405B相媲美的性能,而OpenAI为了实现这一目标,花费了数亿美元。
为何可以做到这样的低成本训练?据介绍,DeepSeek通过创新架构,节省了大量的显存,进而实现底层算力的高效利用,以更低的成本训练出更加出色的模型效果;同时,研发团队证明,多Token预测目标有利于提高模型性能,可以用于推理加速的推测解码。此外,DeepSeek-V3引入了一种创新方法,将推理能力从长思维链模型,蒸馏到标准模型上,在显著提高推理性能的同时,可以进行长度控制。
“DeepSeek颠覆了之前大模型公司‘堆卡’的比拼。实际上近期一些大模型公司已经没有特别大的技术创新了,模型的能力提升来自不断堆卡,这只利好英伟达,可以说挖矿的人没有赚到钱,卖铲子的盆满钵满……而DeepSeek击碎了模型性能与GPU数量成正比的估值模式,对整个大模型系统是一次价值重估”,一位分析人士表示。
面壁智能首席科学家刘知远在朋友圈发文称,“DeepSeek最近出圈,特别好地证明了我们的竞争优势所在,就是通过有限资源的极致高效利用,实现以少胜多。2024年很多人来问我,中国跟美国的AI差距是扩大了还是缩小了,我说明显缩小了,但能感受到大部分人还不太信服,现在DeepSeek等用实例让大家看到了这点,非常赞。”
DeepSeek年薪百万“招兵买马”
DeepSeek之所以能取得这些创新并非一日之功,而是“孵化”数年之久,长期谋划后的结果。DeepSeek创始人梁文锋也是头部量化私募幻方量化的创始人。Deepseek充分利用了其幻方量化积累的资金、数据和卡。
此前,OpenAI前政策主管、Anthropic联合创始人Jack Clark认为DeepSeek雇用了“一批高深莫测的奇才”,对此,梁文峰在接受自媒体采访时曾透露过,并没有什么高深莫测的奇才,都是来自国内顶尖高校的毕业生,没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。
据中国基金报报道,目前DeepSeek约有150名员工,但正在迅速扩张。
某招聘平台显示,杭州深度求索人工智能(AI)基础技术研究有限公司(即DeepSeek)发布了多个岗位的招聘信息。根据公开信息,深度求索公司有52个在招职位,涵盖深度学习研究员、核心系统研发工程师及资深UI设计师等,工作城市是北京或杭州。
薪酬方面,从正式员工岗位的招聘信息看,DeepSeek对员工薪酬采取“14薪”的模式。在Deepseek挂出的职位中,大部分岗位的起薪在2万元以上,不少年薪能够达到百万元级别。其中,年薪最高的职位是“深度学习研究员-AGI”,月薪水平为8万元—11万元,年薪最高可达154万元。同时,深度学习研究员也是Deepseek唯一开放的实习职位。此岗位要求显示,需要精通机器学习(深度学习),具备创新研究能力;编程能力出色,熟练掌握至少两种编程语言;有丰富的研究成果,在国际顶会或期刊发表相关论文;在领域内知名比赛取得优异成绩者优先。
(中新社 北青报 中国基金报)
网友闲话
@Cold-blooded memory:厉害了,2023年成立,一年多的时间横扫全球!
@红烧狮子没有头:算法优化是真的厉害,比单纯堆数据量创新性高太多了。神秘的东方力量!
@李广勇:科技创新,引领全球!为中国科技点赞!
@z:试过了,深度模式下很好用。
@山水幽燕:喜欢DeepSeek的logo,有些霸气,又有点淘气。
@普通老百姓:中国力量!少年强则中国强!加油!
@帅哈:为中国的年轻人点赞!
@出汗哥:科技公司更关注知识产权保护,往往忽视了品牌保护。加油,Deepseek!希望走得更远,走得更好。
@杜木子黛西:期待国产人工智能更精彩的表现。
@朝阳下的烨烨:记住这个词,所有知识技术的革命都应该是走向服务人类的天道。