换新完毕，问题意见建议请回复在此

主题：这几天大火的Deepseek没有人讨论吗 -- 俺本懒人

共: 💬 151 🌺 512 🌵 14

感觉西西河到了这类前沿专业领域，信口开河的人有点多

1. 马前卒这次的发言可以忽略，几乎0价值，参考知乎上段小草的回答如何评价第859期睡前消息？ - 段小草的回答 - 知乎

https://www.zhihu.com/question/11285665541/answer/92969787112。

2. DeepSeek的总参数在变大，v3/r1比v2/2.5大，v2比之前的coder/chat v1大。但它是MoE模型，和dense模型（llama系列直到3）无法直接比较，并且它的重要创新点就是MoE模型方面的。

河友关于“压缩”/变小部分，我理解来自之前流行对大语言模型的一个理解，将LLM看作世界知识的压缩（压缩既智能 https://zhuanlan.zhihu.com/p/681449063 ），但是本身这个也属于玄学。和LLM工程进展没太大关系。

下面属于我的个人不靠谱总结：

Dense模型不时出现32B在特定任务（尤其是qwen 2.5 coder 32B）反杀70B模型的情况。但是更通用的任务中，大家慢慢发现，知识点记忆（世界知识）仍然需要更大的模型来记忆。这时候高参数，低激活参数的MoE模型显出了优势，尤其是DeepSeek推进到几十上百个专家（分散记忆知识点），但是激活几个的模式，这个创新实际上其他家并没有做到，Mistral只做到8专家2~3激活。（这个创新也是Anthropic CEO文章提到的DeepSeek在MoE上走得更远的创新）

通宝推：审度,

相关回复上下关系8
- 🙂这几天大火的Deepseek没有人讨论吗 17 俺本懒人字675 2025-01-27 09:45:45
  - 🙂感觉西西河到了这类前沿专业领域，信口开河的人有点多
    🙂大模型是数据库+信息检索的融合，知识抽象程度既看前者也看后者 30 nobodyknowsI 字4429 2025-02-06 10:59:56
    🙂人工智能应该不是检索而是拟合吧。 1 liuyunling 字509 2025-02-09 22:35:54
    🙂看怎么问，检索类得信息，数理分析类得分析，自然语言类得谎言 5 nobodyknowsI 字1263 2025-02-10 02:51:55
    🙂本质是符合简中教育体系下的高材生期待值 1 川普字949 2025-02-15 16:25:05
    🙂理解，语音类生成模型类似样本杂交 liuyunling 字99 2025-02-10 20:38:23
    🙂是的，而且，从深度学习开始，研究员就失去了人工干预的能力 5 nobodyknowsI 字2439 2025-02-11 01:45:05

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明