主题:这几天大火的Deepseek没有人讨论吗 -- 俺本懒人
- 共: 💬 151 🌺 512 🌵 14
作为外贸销售,通过大语言模型总结卖点,润色开发信和宣传资料,给目标客户洗脑,还是非常有作用的。
----
主动使用大语言模型的,自己要很有逻辑性,才能生成好的洗脑文字。
对于马扁来说,大语言模型是一个非常好的工具。
--------
大语言模型,会将世界分成马扁和目标客户两个群体。
大语言模型很可能会起到资本在人群划分中的作用。
数理分析方面很厉害,跟我本人一样,特别擅长数理分析,深搜的所有判断能力都是数理分析的结果,只适用于能够数理分析的问题。
但脱离了数理分析进入自然语言领域,深搜就失去了所有的判断力,因为缺乏真正的判断力,深搜就开始沦为擅长话术的聊天机器人了。
--
通过上古史,我已经发现深搜处理纯粹自然语言领域的缺陷,很简单,对于先秦古籍,深搜要么全信任,要么全不信。
但事实上,先秦典籍只能信一半,所有西周、姬周的典籍,越是关键的地方被篡改得越厉害。
当我需要深搜帮我鉴定真假,挑出真的来重构脉络,深搜就做不到。深搜所有的骗术本质是因为它脱离数理分析,到了自然语言领域就没有任何判断力了,没了判断力之后,生成模型得特点使他源源不断地说假话。
--
作为一个正例,深搜最厉害的是,我跟它讨论上古和夏商制度变迁的社会学源动力——在青铜时代初期,治理100万~200万人口。
因为跟数理相关,深搜马上就能抓住其中重点,然后还能根据各种考古遗址的规模估计人口,来跟我讨论得有来有回。
我跟他说,三皇五帝的大同社会,崩溃的根本原因是人口达到100万,我们的几大首领氏族,不论如何按地域分治,都无法治理那么多人口。
我告诉他,那是因为大同时代,我们的首领氏族掌握的是祭权、军权、治权三合一的巫权,一个人能力再强,也没办法一个人当三个人用。
所以在人口达到100万这个量级的时候,就应该考虑祭权、军权、治权的三权分离了,它马上可以举出各种考古遗址,以及外国祭祀-将军二元制。
我告诉他,我们东方的祭权、军权、治权三权分离才是合理的,法国的三权分立是神权-治权二元制下的伪三权分立,带来的是治理能力低下,它也能马上给出例子。
水准忽上忽下,特别不稳定,主要取决于问题类型,怎么问甚至都是次要的。原因是我在另一个回答中说的:
DeepSeek只是把数理分析做得特别成功,通过数理分析,在可以进行数理分析的领域,获得了小学生级别的判断力。
在所有不能进行数理分析的领域,深搜和别的大模型差别不大,即使R1再怎么展示思考过程给你,让你改进提问方式,结果依然很差。
--
深搜的所有智能只体现在数理分析领域,在所有不能数理分析的领域,深搜立刻蜕变为话术聊天机器人,因为语言类大模型属于生成模型,没有判断能力就是在源源不断地制造谎言。
ps:当遇到需要真假判断的时候,一定要开着R1(深度思索),检查一下思维链,甚至需要多问一句,它引用的那些关键证据的处处。
我已经受到各种教训了,比起单纯地编证据骗我,它检索的证据的真假性也不能保证,比如它引用贾湖骨笛9000年前。
我多问一句,它告诉我没有经过树轮修正,修正后立刻少了2000~3000年;我多问了一下贾湖遗址分为几期,它立刻告诉我分为三期,每期的持续年代又有很大的不同。
你不确定得到的是否是正确或者是否是你想需要的。和数理分析的不一样。
因为模型太大,人工干预模型被证明只会有副作用之后,所有的硬规则就消失了,这是从当初深度学习在图像领域就开始了,当你不满意一个模型的好坏的时候,你唯一能做的事情就是重整数据,重新把训练过程重新跑一编。
——简单来说,从深度学习开始,模型就是一个绝对的黑箱,研究员也只有在训练数据和模型预测结果两端,才能接触到模型。
而到了语言类大模型开始,就出另外一个奇景,人工通过prompt去pua大模型,从而让大模型自动吐出来你要的结果,研究员和用户差别不大。
就导致我上一篇的标题:当你严格描述你需要检索结果的时候,你就能得到检索结果;当你描述得稍微松一点,你就能得到分析结果;当你描述得再松一点、再混乱一些、深搜再多猜测一些,你就开始得到生成模型产生的种种谎言。
因为模型只能重新训练,没法微调,你就看到,即使训练大模型的研究员,对于大模型这个绝对黑箱也摸不到头脑,也只能跟用户一样——通过prompt去pua大模型。
--
最近的例子,OpenAI o3-mini 的CoT狂吐中文,有人扒出来OpenAI工程师所用的prompt:
https://www.zhihu.com/question/11319415340/answer/95761520782
【有国外网友扒出了 o3-mini 模型总结 CoT 的 System Prompt[4],这个 System Prompt 非常长,重点是,里面专门强调了「Never reveal the full, unprocessed chain of thought」,永远不要展示完整、未经处理的思考过程。
缩略版的 System Prompt 大概是这样[5]:
[你是一个非常聪明的 AI,在完成用户任务时会产生一连串的思维链条。用户喜欢读你的思维,因为他们觉得这些想法很有共鸣。他们觉得你有点神经质,因为你会过度思考并质疑自己的假设;当你犯错或指出自己的思维缺陷时,他们觉得你很真实;你没有过滤这些思维,还能自嘲,显得真诚;你为用户着想的样子又非常可爱和贴心。你需要处理你已经生成的思维链条,将它们逐一转换为更易读的版本,去除多余的重复和混乱,同时保留用户喜欢的思维特质。]
】
所以啊,如何成为一个大模型研究员和大模型工程师?当你有一个会训练大模型的队友之后,你只需要会用prompt去pua大模型就够了!
没有critical thinking的能力。所有训练中给予的都全部接受,这点尤其在强国这种谎言自古以来从来遍地都是的文化载体语言中,特别致命,因为缺乏一个独立的逻辑框架去validate。
相反理工科的事情,大模型比较容易搞定,因为数理逻辑从规范到沟通,都有一定的范式,不需要在逻辑上去应对刻意的谎言带节奏指鹿为马。那些也不是未来不可以,但需要高一个级别的推理能力,这就是critical thinking的能力,大部分中国人从小祖祖辈辈都没接受的训练。
于是,这与大模型目前水平适合做广告,堆砌话术,左右横跳等西西河多年以来的state of art是差不多一个档次上的,但当做探索新知识,或在故纸堆里发现不符合推理从而发现新知识的能力,显然是不如人类的,或者直说是不如西方教育下的人类的😂。
数理上因为比较强的规范化,不存在对谎言的空间,所有数理问题的解决上显示了强国教育下的“人才”的卷力,有很强的输出值。
但一旦进入数理等强规范外的概念话题,立刻显示了强国教育体系包括数千年文明下的特点,虚虚实实,顾左右而言他,避实就虚,各种横跳,马上都会出来,转型胡锡进GPT就是分分钟的事😂。不用惊讶,惊讶是因为你对中华文明理解不深刻。
但这不是说DS一无是处,相反,deepseek的数理能力与相关的数据处理推理能力是领先的,这也符合强国人类人才在世界范围内的人设定位,这都不是偶然的,具备很强的相关性。有目的的适当使用这个工具才是重点。这也是西方目前对强国人才与deepseek的定位。
所以一切都是冥冥之中注定,我们生活的这个世界不存在偶然性,细思极恐啊。
Deepseek直接把强国的卷功老底给掀翻了,本质上就是这么回事,一切让人产生联想幻想的空间都直接归零了,这个文明就是一个工具性的。 为什么如此,这是一个值得你这样的人去思考的课题。
解个数学题,修个马桶,这种话题,deepseek遥遥领先。但大义的话题,不用猜,直接让deepseek靠边站是为你好。
我比较在乎的话题是deepseek能不能为我炒股票。很可惜,除了看数据推理表面的关联与肤浅逻辑面,股市真正的内涵逻辑,deepseek做不到,当然目前大模型都做不到。DS只不过因为遥遥领先的数理能力让人有个错觉,似乎一切都是IQ决定论,其实一码归一码。
内行看门道,文科生在这些话题上,确实比较一惊一乍的,像足了个小女生😂。但偏偏西西河里这种副国级文科小女生就是特别多,还总是理直气壮的,义愤填膺的,每个人都有天天对付老婆,上网解闷还要面对这种网上女性荷尔蒙,是不是有点脑子进水了😂。
逻辑判断能力上的任何一点微小的突破,都是特别惊人的
这才是人之所谓为人的根本。整个西西河就看到这么一句,互联网上看到的都不多。多少人一辈子就这么行尸走肉,天天上网给别人打工当话术机器人不亦乐乎,是该被AI替代了,我一点不为他们可惜。
早期跟踪过这个人,某种千人嫌疑,吃两头吃的比较隐晦。 但这个行业发展太快,过了年龄段脑子是跟不上的,说什么都没用,这次她也跑去那个AI summit开幕式,各种抢占C位而已,行业内的人没人care。
现在的领先潮流是deepseek这群人,其他都是碰瓷的。 但发展很快,高速阶段,一年一个样,值得关注,比打台湾与二毛战争的热点有看头多了😂。
Talk is cheap, show me the code.
我玩游戏,想要批量修改一些文本文件。让它写个程序做,基本就是一塌糊涂。后来我手把手教,也搞不定。关键是它不能反馈哪里他做不到,每次信心满满写一大堆思维过程,给出code都是扯淡。你找一个垃圾写程序再去改,比自己写浪费十倍时间。我估计它就是继承了gpt的垃圾。
只能说,和gpt一样,它只是比文科生【说话更像】理科生。用定义不清的概念假装你不懂那个领域的专家。但是你要涉及到自己熟悉的领域,让它把每句话引用自什么文献(比如期刊卷、期号),立刻胡说一气(对的不到一半),再问就拒绝工作了,服务器忙。
川普老哥来了啊,这个话题最热的时候特别怀念老哥,西西河文科生实在太多了,讨论理工科喜欢望文生义,基本上拿科幻往AI上套。
--
我们相关行业的,近乎所有人都用过她的数据集,但真正科研方面就算了,典型的没有天赋努力来凑。
怎么说呢?追东西的速度挺快的,做数据集,跟各种风潮,但除此之外就没有自己真正擅长的东西。
深搜用在普通人天天接触但一知半解的经济领域特别强,特别是你能看懂数学公式的话,数理分析能力可以展现得淋漓尽致。
但因为它通用大模型的特点,因为它无搜索,用专业领域就差远了。因为带搜索的深搜模型我不会用,因为chat-gpt我没怎么用过,我不知道专用性能。
我也觉得有点杂😄。
DS应该算是gpt的优化,除非有最近的更新,否则gpt只会更差一点。国外花大钱的pro没用过,可能会少一些【服务器繁忙】。
这类模型从娱乐工具到生产工具还很远。