DeepSeek怎么样?为什么突然火了?

DeepSeek怎么样?为什么突然火了?

DeepSeek 是北京深度求索人工智能基础技术研究有限公司推出的大语言模型,整体表现较为出色,具有以下特点:

  1. 技术路径创新:以 transformer 架构为基础,如 DeepSeek-R1 是首个完全通过强化学习训练的大型语言模型,采用 GRPO 算法,摒弃传统监督微调,减少对标注数据的依赖,降低内存消耗和计算复杂度。
  2. 性能表现优异:DeepSeek-R1 在数学、编程和自然语言推理等任务上性能出色,如在 MATH 基准测试中达 77.5%,Codeforces 评分 2029 超越 96% 人类;DeepSeek-V3 在知识类任务上水平较高,接近 claude-3.5-sonnet-1022,在美国数学竞赛和全国高中数学联赛上大幅超过其他开源闭源模型。
  3. 开源特性显著:采用 MIT 许可协议,开放模型权重,允许用户二次开发,如从 DeepSeek-R1 中蒸馏出 1.5B、32B、70B 等不同规模的模型,推动了技术普惠化。
  4. 成本优势明显:相比 OpenAI O1 等模型,DeepSeek-R1 训练成本低,其输出 Tokens 价格为 16 元 / 百万,远低于 OpenAI O1 Pro 的 438 元 / 百万。
  5. 应用场景丰富:可广泛应用于教育、医疗健康、金融服务、零售和电商、制造业、交通物流、媒体和娱乐、法律、公共安全、环境科学、智能家居等多个领域。
  6. 生成速度较快:以 DeepSeek-V3 为例,其生成吐字速度从 20tps 大幅提高至 60tps,相比 v2.5 模型实现了 3 倍的提升,能带来更流畅的使用体验。

市场与关注度方面

  • 下载量惊人:应用程序在苹果应用商店和安卓应用商店的下载量激增,如在发布的前 18 天内,DeepSeek 实现了 1600 万次下载,几乎是竞争对手 OpenAI 的 ChatGPT 同期下载量的两倍。
  • 引发行业震动:DeepSeek 的崛起对美国科技行业的地位产生了冲击,引发了全球科技巨头和投资者的广泛关注和讨论。

文章为互联网资源,版权归原作者所有,发布者:房小蜂,转转请注明出处:https://www.fangxiaofeng.com/hot/5704.html

(0)
上一篇 10小时前
下一篇 10小时前

相关推荐