DeepSeek怎么样？为什么突然火了？

房小蜂 • 2025年2月5日下午2:30 • 今日热点 • 阅读 220

DeepSeek 是北京深度求索人工智能基础技术研究有限公司推出的大语言模型，整体表现较为出色，具有以下特点：

技术路径创新：以 transformer 架构为基础，如 DeepSeek-R1 是首个完全通过强化学习训练的大型语言模型，采用 GRPO 算法，摒弃传统监督微调，减少对标注数据的依赖，降低内存消耗和计算复杂度。
性能表现优异：DeepSeek-R1 在数学、编程和自然语言推理等任务上性能出色，如在 MATH 基准测试中达 77.5%，Codeforces 评分 2029 超越 96% 人类；DeepSeek-V3 在知识类任务上水平较高，接近 claude-3.5-sonnet-1022，在美国数学竞赛和全国高中数学联赛上大幅超过其他开源闭源模型。
开源特性显著：采用 MIT 许可协议，开放模型权重，允许用户二次开发，如从 DeepSeek-R1 中蒸馏出 1.5B、32B、70B 等不同规模的模型，推动了技术普惠化。
成本优势明显：相比 OpenAI O1 等模型，DeepSeek-R1 训练成本低，其输出 Tokens 价格为 16 元 / 百万，远低于 OpenAI O1 Pro 的 438 元 / 百万。
应用场景丰富：可广泛应用于教育、医疗健康、金融服务、零售和电商、制造业、交通物流、媒体和娱乐、法律、公共安全、环境科学、智能家居等多个领域。
生成速度较快：以 DeepSeek-V3 为例，其生成吐字速度从 20tps 大幅提高至 60tps，相比 v2.5 模型实现了 3 倍的提升，能带来更流畅的使用体验。

下载量惊人：应用程序在苹果应用商店和安卓应用商店的下载量激增，如在发布的前 18 天内，DeepSeek 实现了 1600 万次下载，几乎是竞争对手 OpenAI 的 ChatGPT 同期下载量的两倍。
引发行业震动：DeepSeek 的崛起对美国科技行业的地位产生了冲击，引发了全球科技巨头和投资者的广泛关注和讨论。

文章《房小蜂》为互联网资源，版权归原作者所有，发布者：房小蜂，转转请注明出处：https://www.fangxiaofeng.com/hot/5704.html