主题:这几天大火的Deepseek没有人讨论吗 -- 俺本懒人
- 共: 💬 151 🌺 512 🌵 14
1. 马前卒这次的发言可以忽略,几乎0价值,参考知乎上 段小草 的回答 如何评价第859期睡前消息? - 段小草的回答 - 知乎
https://www.zhihu.com/question/11285665541/answer/92969787112。
2. DeepSeek的总参数在变大,v3/r1比v2/2.5大,v2比之前的coder/chat v1大。但它是MoE模型,和dense模型(llama系列直到3)无法直接比较,并且它的重要创新点就是MoE模型方面的。
河友关于“压缩”/变小部分,我理解来自之前流行对大语言模型的一个理解,将LLM看作世界知识的压缩(压缩既智能 https://zhuanlan.zhihu.com/p/681449063 ),但是本身这个也属于玄学。和LLM工程进展没太大关系。
下面属于我的个人不靠谱总结:
Dense模型不时出现32B在特定任务(尤其是qwen 2.5 coder 32B)反杀70B模型的情况。但是更通用的任务中,大家慢慢发现,知识点记忆(世界知识)仍然需要更大的模型来记忆。这时候高参数,低激活参数的MoE模型显出了优势,尤其是DeepSeek推进到几十上百个专家(分散记忆知识点),但是激活几个的模式,这个创新实际上其他家并没有做到,Mistral只做到8专家2~3激活。(这个创新也是Anthropic CEO文章提到的DeepSeek在MoE上走得更远的创新)
- 相关回复 上下关系8
🙂这几天大火的Deepseek没有人讨论吗 17 俺本懒人 字675 2025-01-27 09:45:45
🙂感觉西西河到了这类前沿专业领域,信口开河的人有点多
🙂大模型是数据库+信息检索的融合,知识抽象程度既看前者也看后者 30 nobodyknowsI 字4429 2025-02-06 10:59:56
🙂人工智能应该不是检索而是拟合吧。 1 liuyunling 字509 2025-02-09 22:35:54
🙂看怎么问,检索类得信息,数理分析类得分析,自然语言类得谎言 5 nobodyknowsI 字1263 2025-02-10 02:51:55
🙂本质是符合简中教育体系下的高材生期待值 1 川普 字949 2025-02-15 16:25:05
🙂理解,语音类生成模型类似样本杂交 liuyunling 字99 2025-02-10 20:38:23
🙂是的,而且,从深度学习开始,研究员就失去了人工干预的能力 5 nobodyknowsI 字2439 2025-02-11 01:45:05