淘客熙熙

主题:转个有意思暴论:英语是自带半文盲debuff的种姓隔离圣体 -- 划水的鱼

  • 共: 💬 84 🌺 576 🌵 12
  • : 💬 1 🌺 1
  • 转个有意思暴论:英语是自带半文盲debuff的种姓隔离圣体

    英语是世界使用最广泛的语言之一,尤其是最近两个世纪来,伴随着英美两大“日不落帝国”的影响力辐射,甚至隐隐有“世界通用语”的架势。

    但就本身特性而言,英语可以说是拼音文字之中极为奇葩的存在,近乎集齐了拼音所有的缺点,堪称【拼音文字之耻】。最近几十年来,由于其拉胯的底层架构、以及种种的人为(包括有意及无意)的骚操作,英语正在朝着【种姓化语言】方向狂奔,都快化身为自带‘’半文盲debuff”的【先天种姓隔离圣体】了·········

    一、英语是一种底层架构极差的语言,难读难懂难记

    (1)不能直接准确拼音的拼音文字

    英语(英文)是拼音文字,但是,英文是不能直接准确拼音的拼音文字。

    不能拼音的拼音文字,还需要用音标来注音的表音文字,写到这我都忍不住笑了······

    一般来说,“文盲”是指那些能掌握语言,但不能掌握文字的人,也就是“会说不会写,会听不会读这种情况往往出现在中文这种表意文字中,因为难以从字形看出读音,也难以从读音推测字形,只能通过死记硬背把读音和字形联系起来。

    而表音文字扫盲是比中文这样的表意文字容易的,只要掌握了读音和文字的对应规则,就可以“会说则会写,会听则会读”可偏偏英语是个异类,拼音文字经常和音对不上,丧失了这个表音文字最大的优点,大大提高了学习难度,经常看到一个词不知道怎么念,相同字母不同发音,有些还不发音。作为一门表音文字语言,英文读写不一致,还需要国际音标来注音,想想就离谱。

    (2)没有正字法

    其实,并不是所有的印欧语,或者拼音文字都像英语这样毫无规律可言,拉丁语希腊语,乃至罗曼语族的法语,都可以像汉语一样,通过词根词缀组词,你只要认识足够多的词根词缀,看到一个单词能大致猜到它的意思,或者至少它是哪个领域的词。

    但英语做不到,很大一个原因在于英语没有在几百年前搞【正字法】。

    正字法,乃是关于文字使用的规范性法则,是确定正规使用的、书写和语法符合相关规范的文字。

    例如汉字正字法的基本要求就是:要使用规范字,不使用不规范字,首先要消灭错别字。有标准正字法的语言,例如德文、拉丁文,其词根词缀比英文有规律得多。

    大部分的正字运动往往由强力的中央政府强制推行,但并不绝对。

    例如德国除了小胡子那12年,也没个强力的中央集权。德语区现在也是好几个国家——德国、奥地利、瑞士,但德语也可以有正字法。这是因为标准德语中的很多内容,是马丁路德在翻译圣经时创立的。可以说,标准德语的推广,相当程度上依靠了马丁路德在宗教改革中的巨大威望。

    而英国中央政府不干事,民间也没有巨大威望的人来推动正字法的出台,自然这事也就无从谈起了。

    (3)非原生语言,混入大量外来词,形成【片假名地狱】

    英语作为形成于英国、流行于英美的语言,其词汇很多却并不起源于英美。英语自己的老爹是古英语,但因原有的语言积累不够+罗马/基督教影响,引入了大量拉丁语/希腊语词汇,加上历史上英国被法国人统治过(诺曼征服),以至于英语里又混入了大量的法语词汇。

    话说引入外语词汇也不是不行,但你好歹正经翻译下啊,结果英文直接就按片假名的方式,按照读音硬上。

    片假名源自日语,是一种表音的文字符号。日本人常常使用片假名表示外来词,近年来由于过于泛滥,都已经被吐槽为“翻译界的毒瘤”了。

    如果你闹不明白片假名为何会被疯狂吐槽?来来来我用中文给你举个例子,你就知道它为什么是毒瘤了。

    比如2021年上映的电影《007-No time to Die》,正常情况下,用中文翻译是《007-无暇赴死》,那如果改成片假名该怎么翻译呢?

    很简单——

    第一步,把原话翻译成英文发音:

    《007-No time to Die》--->《zero zero seven-No time to Die》

    第二步,把英文发音转写成中文拼音

    《zero zero seven-No time to Die》--->《zeiluo zeiluo saiwen -nuo tanmu tu dai》

    第三步,把中文拼音转写成中文

    《zeiluo zeiluo saiwen -nuo tanmu tu dai》--->《贼罗贼罗塞文-诺碳木图带》

    OK,至此大功告成,你已经成功将《007-无暇赴死》转写为中文片假名《贼罗贼罗塞文-诺碳木图带》。

    然而,现在给你这么一坨中文,你看得出来这是啥玩意儿嘛?

    所以,这玩意儿谁看谁不骂街啊——片假名翻译了个寄吧啊,我还不如直接看原文?(恼)

    英文正是用这种方式引入了大量不同语族乃至语系的词汇,结果嘛,就是把自己彻底搞成一个一个缝合怪(当然,也可换个学术点的说法,称其为【克里奥尔语(混合语)】)。

    换句话来说,英语就是是成形了的片假名地狱,一堆乱七八糟的名词来源于不同语言的音译。

    你觉得这个单词是英文,其实它是法文,没想到吧,

    你觉得这个单词是英文,其实这个是拉丁文。

    英语里太多这种四不像了,直接把英文搞成一座“代码屎山”,特例能堆成山,表面上有词根词缀,但实际用起来完全没规律。

    这就直接导致了英语词汇的“难读难懂难记”。 由于英文走的是“一物一单词”路线,加之【正字法】的缺失,词汇之间无法建立像汉字词汇那样紧密的联系,也很难在从字形看出彼此之间的联系,这就给普通人的阅读理解带来巨大的麻烦与不便。

    举个简单的例子:

    有个经典笑话:那就是【绝大部分英国人不知道葡萄干是用葡萄制作的,也不知道葡萄酒是用葡萄酿的】,为啥呢?

    因为这几个货的单词是这样的:

    葡萄 grape

    葡萄干 raisin

    葡萄酒 wine

    葡萄醋 balsamic-vinegar

    光看字面和读音,你是无法得知这个单词与表述的东西有啥联系的。

    再举个例子,为什么美国总统特朗普会给美国人民科普无人机没有人?

    因为无人机英文是——drone,这五个字母组合在一起,实在是表达不出来——这东西里面没有人。

    关键是,你单词难读难记也就罢了,可更操蛋的是,要记的单词还超多!!!

    二、要记的基础词汇量巨大,半文盲效应显著

    所有语言都有一个特性,就是——你必须掌握它的基础量才能运用自如。比如汉语体系的字,英语体系的单词。

    那英文需要掌握多少词汇,才能才能满足日常交流、读书看报等基本生活需求呢?曾有专家专门整理的词汇频率表:

    掌握2000个最常用英文单词,阅读覆盖率为75.89%

    掌握9000个最常用英文单词,阅读覆盖率为98.10%

    掌握24000个最常用英文单词,阅读覆盖率为99.65%,

    也就是说,如果要满足98%的阅读覆盖率,就至少需要掌握9000个英文单词(是中文的4.5倍),要想满足99.6%的阅读覆盖率,就得掌握24000个单词(是中文的6.8倍),这个记忆的工作量着实不小啊·····

    咱拿中文对比一下:(数据来自国家标准 GB2312-80《信息交换用汉字编码字符集*基本集》相关词频统计)

    掌握1000个常用汉字,阅读覆盖率为91.91%,掌握2000个常用汉字,阅读覆盖率为98.38%,掌握3500个常用汉字,阅读覆盖率为99.82%,

    当然,客观的说,当然学汉语还得记词组,但是负担会小很多,因为那些字你都已经认识了。在掌握了3500常用字以后,深入学下去基本都是“熟字新词”,扩大词汇量很容易。

    举个例子:

    牛:bull

    肉:meat

    牛肉:beef

    [牛肉]这个词, 汉语就是[牛]+[肉],表达直接准确。 而英语相对应的,应该是[bull]+meat。但这样组合,就成了一个多重音节的词汇。对于表达和理解都十分费力。于是,英语就直接新造了一个词beef,这完全就是资源的浪费。英语不仅需要记住[牛][肉],还得记住[牛肉],而汉字系统只需要记住[牛]和[肉]这两个词汇就可以了。

    而英文嘛,由于英文词汇之间无法建立像汉字词汇那样紧密的联系,就导致只要有一个新的概念在英语中出现,英文就必须设计出一种新词汇与之对应,而且很难在从字形看出彼此之间的联系,那要记的单词就多咯········

    这就直接导致了一种“魔幻”的现象:

    作为中国人:你认识3500个汉字基本上可以读书看报了。作为英国人:你认识6500个英文单词(英语六级水平)还是个“半文盲”。

    也就是说,对于英文零基础的中国人,要全职学习2年英文才能熟练掌握9000-1万个单词,雅思能考7-8分,这已经非常了不起啦,但去读报纸,小说,跨专业的学术文章时,会发现自己仍旧是个半文盲,还是满篇不认识的单词。

    而中国人只要能掌握3500个汉字,以及相关词汇,就可以阅读《人民日报》而不会有多少生词。英语母语的人,得掌握24000个单词后, 才能实现差不多的读报效果。

    而且,英文读者一旦遇上报纸中那0.35%不认识的单词,那体验就不那么美妙了。前面说过,英文单词不像中文,难以“望文生义”,碰上了,不是认识就是不认识,猜都没法猜。按照0.35%的频率,平均每阅读1000个单词,就有近4个单词不认识。一页office文档就500个英文单词,看小说时每页都会出现1-2个不认识的单词,而若这是关键词,是非常影响阅读体验的。

    从这个角度来看,英语简直是自带“半文盲debuff”啊·········

    所以,就最终效果而言,。中国人学习三四千汉字,就可以享受几乎全部信息。可谓是“学少而知多”,而英国人学习了2万单词,他能享受的信息还是有限的,还得继续老老实实地背单词·······

    这就导致英美等国出现一个严重问题——功能性文盲众多!

    所谓功能性文盲,是指:“具有阅读、书写或计算能力,但是却缺乏利用这些能力来处理某些日常生活事务的能力”。“日常生活事务”指的是例如阅读报纸、查字典、读公车时刻表、理解说明书、填写申请书一类事情。

    根据美国教育部和美国国家识字研究所2013年开展的【关于美国文盲人数的全面深入的调查】结果,美国有3200~5000万功能性文盲。

    据调查结果,全美成年人中不怎么识字的占到了总人口的14%,也就是3200万人。全美21%的成年人有阅读困难,达不到五年级小学生所应有的阅读水平。而美国高中毕业生中20%的人连自己毕业证书上的单词都看不懂。

    这其中很大一部分锅得扣在英语头上,因为英语“构词法”的特性决定了,如果他要想达到较为复杂的阅读或者书写,需要的基础词汇量太大。

    当然,背单词就背单词呗,毕竟几百上千年英国人也是这么过来的,还能掉块肉不成。

    按咱程序员的话来说,不管程序“屎山代码”多么乱,只要程序还能跑就行!

    但问题就是——大人,新问题它来了!

    三、英语的科技时代危机——词汇量大爆炸

    自进入工业化知识大爆炸时代后,人类社会发展迅猛发展,各种新科技、新发明、新事物层出不穷,一片勃勃生机万物竞发的景象。

    那你会说这不是好事嘛,咋又成英语的问题了?

    问题就在于“各种新科技、新发明、新事物层出不穷”,人家新事物出来,你总得给去个名字嘛。而英语等拼音/字母文字通常采用采用“构词法”,也就是”“一物一词”模式进行造词,造一个新词汇来表述它。

    这样就会直接导致一个严重问题,就是——随着时代的进步,新生事物的不断涌现,词汇总量会呈指数级暴增。你不要小看造新词带来的破坏,这个如同熵增一样,随着时间的推移会非常恐怖。

    举个极端点的例子,

    目前世界上已知的植物有37万种。

    拼音文字造37万单词也容易(字母排列组合下就行),但是这也意味着,你要记几十万个单词。

    谁能学会?谁能记住?这还不是最操蛋的。

    更操蛋的是,世界上有150万种动物。

    更更操蛋的是,世界上有数百万种微生物。

    这还只是生物这一门学科·······

    如果每一个新事物都要造一个单词,那么造出来单词数量会吓死人,不可能有人认识。而且这些新词汇都需要学习者去重新记忆他们的拼写、音标、词义、时态变化,这样会造成英文词汇的学习记忆难度呈倍数级的上升!

    而且这一问题随着时间推移,会显得越发突出。

    1600年,莎士比亚时代(1564~1616年)的英语词汇量约为3万个单词(数据来源于《纽约时报》统计);1933年,第一版《牛津词典》编纂了76个年头,收录不到10万个单词;1989年,第二版《牛津词典》,收录31万个单词;2019年,据《纽约时报》统计,英语单词数量,已超过了100万个;2021年,趣词典网站统计,超过300万个。单词长度,平均在10–11个字母。最长的正式单词1319个字母(其缩写词就好多了,缩写后仅仅28个字母)。目前,单词数仍在持续增长中(英语每年还有1~2万新词产生),看这百万级的词汇量,估计普通人一辈子也记不完了。

    显然,在这种趋势下,无论哪种语言,随着时代的发展,人类有限的时间和越来越多需要掌握的词汇量将会形成强烈的矛盾。

    -----------------

    题外话:

    这轮词汇大爆炸中,汉语是被冲击最小的一种语言。

    这核心在于汉语“四维结构”这一底层架构带来的高效组词优势。这令汉字拥有高度概念抽象能力的「面向对象」文字,拥有近乎完美的「封装」「继承」「多态」特性。每一个部首和基本汉字都是一个封装的「类(class)」,造字造词都是通过「继承」(最常用的是多重继承)来完成的,然后再通过声调完成「重载」以简化音系。这个真的是遥遥领先·····

    通常来说,如果要对一类事物进行编码,大体上有两种方式,

    一是设置较简单的编码体系(精简指令集),基础字符少,但组合成符码的长度会较长,二是设置较复杂的符码体系(复杂指令集),基础字符多,但组合成符码的长度会较短。

    英文采用的是精简指令集,使用26个字母(基础字符),形成“字母-词-句”的三维结构。

    汉语采用的是复杂指令集,使用8种笔画构成3000~1万个字(基础字符),形成“笔画-字-词-句”的四维结构。

    这种“四维结构”令汉语在组词方面,获得对英文“降维打击”的优势。

    英文有26个字母(基础字符),两个字母可以形成676个组合,4个字母可以形成差不多45万种组合。而汉语常用字有3500个,2~4个汉字组合的理论数量极大,2500个基本字可组成40万亿个词。

    呃·········怎么有种“26进制 VS 3500进制”的既视感?

    汉语正是通过这样相对复杂的编码,构建了更多了的基础字符,形成独特【四维结构】。这令其除了可以用“构字法”来创造新字外,还有可以用“组词法”——由字的组合来产生词,为各种新事物生成表达准确含义的新词,避免了重新造字(神奇就神奇在你只需要了解最基本的汉字就可以懂得组合出的词的意思)。

    其实咱们的老祖宗当年造字,也曾走上过“构词(字)法”这条歪路,给每个事物都造一个新的对应的字/词(主要是当时还在竹简上刻字的年代,为了竹简轻点、字数少点,故意搞出来的一大把单字)。

    比如马,少壮的马叫驹,高六尺的马叫骄,青黑色的马叫骐,毛色黄白相杂的马叫駓......

    后来老祖宗发现这样下去不是事呀。直接改用“组词法”来解决这一问题,比如将骐写成“青黑马”。从而避免这一问题。

    这“组词法”的加持下,只要掌握了几千个汉字,这几千个汉字就可以组合成无穷无尽(近乎正无穷)的词汇,进而描述认知世界。非常简单而且非常巧妙。还可触类旁通,记忆量大减。

    汉语里:

    火箭,不就是火推动的箭么?

    葡萄酒,不就是葡萄酿的的酒么?

    想象你拎起“脑”这个词,可以拎出一串“猪脑,羊脑,脑干,脑髓,脑细胞……”(这才是体现抽象和逻辑好吗?)

    汉语这种强大的容纳、表述能力,可以利用不同组合就表达了不同事物,伟大而让人轻松。

    英语呢?

    有了火箭,就得产生个新词ROCKET;

    有了葡萄酒,就得来个WINE。

    记忆量大呀,挺累人的······

    瞧瞧,这就是差距。

    一边是要背诵掌握十几万个词,一边是要掌握几千个汉字,哪个简单,哪个先进一目了然。

    当然,也有读者会反驳——怎么会呢,这完全可以用词根词缀来解决啊。采取类似中文组词的方式,把词根作为构成单词的组件,利用词根来构成单词。这样即使你完全不认识这个新的单词,根据词根你可以猜出他的是个什么意思。

    这看起来的确是好办法(毕竟中文、德文就是这么干的),但是嘛·········有些事别人(汉字)做起来简单,你(英文)做起来就不一定简单咯······

    咱就好好唠嗑一下这个问题:

    一般来,要对一种新事物进行命名,在语言中通常有三种做法。

    1. 不造新词,直接借用现有词汇增加新解释。

    2. 采用词词组合的方法,造一个复合词

    3. 直接用笔画、字母等基础字符,重造一个新词

    先说第一种,就是不造新词,直接借用现有词汇增加新解释,虽然省时省力,但这就会导致一个问题——一词多义严重:

    例如英文的set这个单词,大家可以看看它被塞了多少词义,很多人经常吐槽中文“一字多义”难学易混淆,但作为“祖传屎山”的英文在这方面也是丝毫不差,据统计:

    set,有430个定义;go,有368个定义;take,有343个定义;stand,有334个定义;get,有289个定义;turn,有288个定义;put,有268个定义;fall,有264个定义;strike,有250个定义……

    而当一个单词被赋予如此之多的含义后,光要记住这几百种释义,就已经足够普通人崩溃了,还不索性造新词呢。

    再说第二种方法——采用词词组合的方式,造一个复合词。

    拼音文字如果要走这条路,代价就是——这样单词会变得很长。因为字母/拼音文字,由于缺少单音节词,所以一般常用词只能使用双音节词。而要形成逻辑结构就必须大规模使用四音节词,这种完全用词根词缀组合来表达海量的关联信息就太冗长了,且非常低效。

    一个有意义的词根起码也得三四个字母,两三个词根的组合,这个单词就奔着十几二十个字母去了。如果稍微复杂一点的新词,学会这个单词的发音怕是得去德云社了。

    举个典型的例子:

    英文:pneumonoultramicroscopicsilicovolcanoconiosis

    英 ['nju:mənəʊ ˌʌltrə-ˌmaɪkrəs' kɒpɪk'sɪlɪkəvɒl'keɪnəʊ kəʊnɪ'əʊsɪs]

    美 ['nju:mənoʊ ˌʌltrə-ˌmaɪkrəs' kɒpɪk'sɪlɪkəvɒl'keɪnoʊ koʊnɪ'oʊsɪs]

    中文学名:肺尘埃沉着病(看着就像英文直译,有点拗口)

    中文简称:肺尘病

    pneumonoultramicroscopicsilicovolcanoconiosis是一个典型的词根组合词,由pneumono(肺部)-ultra(微)-microscopic(微小的)-silico(硅)-volcano(粉尘)-conio-sis(沉积状态)组合而成。大家可以照着音标念念,保证你会从此对英文的“优越性”佩服地五体投地!

    所以现实中大家也基本不用这个词,而是使用silicosis来表述,但·····短倒是短了,可它也就失去了望文生义的功能,非专业读者看到这个词恐怕想不到这是一种肺部疾病吧?

    英文、德文里面的不少超级长的单词,就用上述这个方法造出来的,发音有规律,看了就能读,就是长了那么“亿点点”,大家也都不怎么用。

    而且随着时间的推移与不断的造词,导致英文单词越来越长,目前8个字母以上英文单词已经达到50%以上,甚至30%单词超过12位字母。英文单词平均长度,正在无休止的变长!

    为了避免这种低效,英文很多常用词就只能抛弃逻辑结构,造出无法联想记忆的新词,来避免单词的冗长与笨拙(又回到“一物一新单词”),然后嘛·······就又跑回前面词汇量爆炸的老路了。

    就最终的结果而言,

    一些拼音文字选择了逻辑组词这条路,例如德语。

    德语是这条路线忠实拥趸,堪称【组合词铁粉】,因此经常有人吐槽德语单词多么冗长,但是一解释,基本就是含义单词的叠加。所以德语可能越学越简单,因为前期觉得基础语法复杂但掌握了后面也就容易了。

    而高贵的英语不想搞这种超长发音词,于是便走了另一条路——那就是专业化。

    其思路也很简单,就是

    既然词汇量爆炸,我一本字典装不下,那我搞个100本专业字典来装(连后续的拓展空间都预留好了);既然300万单词记忆难度高,一个人背不下所有单词,那就分给100个专业人士,每人背3万“专业词汇”。

    这总行了吧········

    四、英文的种姓化:专业词汇暴增,造成不同专业之间的【种姓隔离】

    在词汇量爆炸式增长这一过程中,出于实际需要,以及一些有意或无意的原因,每个行业/专业都有大量专业英语词汇被发明出来,并需要专门学习,例如各种法律、医学、化学等专业都有数以千计的专有词汇,为此还不得不专门编纂(各学科的)专业英语词典。

    这类专业英语是怎么回事呢?

    其实,它们某种程度上有点类似于中国的“江湖黑话”,这东西的一大特色就是对名词、动词、数词进行替换。这句黑话"插了棚了,要摆金了"翻译成日常语言是“天阴了,要下雨了”。在不了解江湖黑话时,这句话完全无法理解的。而且经过这样的替换后,外人想对江湖黑话含义进行推断是几乎不可能的,想要进行推断必须有大量的黑话对话,并结合当时情景、语境、人物动作才能进行。

    如果把这些江湖黑话落在纸上写成信件、文章,外人自然看不懂。即便有大量同类文件,也只能部分破译。这也是替换密码经久不衰的原因,知道什么意思的时候一目了然,不知道的时候靠猜和推断想破译是很难的。

    但客观来说,专业词汇和黑话还是有所不同的。黑话是本来就不想让人明白的话,是为了刻意制造“信息隔离”,其唯一作用就是确定你是不是自己人。而专业词汇最初创立时往往是为了更精准、更专业地进行表达。某种程度上来说,“专业词汇”其实是一种必然现象,因为任何行业,随着其发展程度越高,运用的专业抽象概念就越多,这时候就不得不弄些新词汇来进行更加精准的描述,通俗点叫“行话”。

    在英语国家里,各行各业都在不停创造新的“行话/黑话”。基本上,任何一门学科都有专业英语,而且其专业英文字典往往都非常厚,如此一来,造成的后果就是专业英语只有专业的人才可以记忆和使用,导致英语的专业知识壁垒越来越高。而普通老百姓一旦遇到了哪怕稍微专业一点的学术技术领域名词,立马懵逼变文盲了。

    不信?我随便贴个葫芦科植物+分类残页给英文和拉丁文,给大家看一看。

    看汉字部分,中国小学生也一看就懂,大概猜测这个瓜是啥特点。 但是国外老百姓要是猛然撞见这些单词。。。。立马听了懵逼,见了流泪——完全不懂啊!

    再比如医学领域,普通人学专业医学英语基本上是从头开始,跟以前学过的英语完全不一样。

    不信的话,最方便验证的一个方法,去医院,你去看各科室的牌子,看英文标牌,你会觉得大学英语四六级白学了。

    中国的医院里面有眼科,牙科,儿科。都是器官在加科字,就算是刚识字的小孩也能明白。但是英语就有点离谱了,child或者kid是儿童,但儿科是pediatrics,牙齿是tooth但牙科是dentistry,眼睛是eyes,但是眼科是ophthalmology。没个大学文凭,估计连医院科室都找不到。在英美,如“四环素”、“变阻器”、“碳酸钙”、“高血压”、“肾结石”、“七边形” 、“五面体”等词汇,都只有专业人士才会。一般人连他们的基本医学术语,如“酒精绵球”“血压计”都不会讲。脑水肿、胃溃疡等病名,说给普通人听也听不懂。

    普通外国人进了医院就只能听凭医生护士忽悠,连自己到底是啥病都不明白。

    如果你对此还是难以体会的话,咱就用中文给你举个例子,你就明白“构词法”是如何让你秒变“半文盲”的。

    当年还在竹简上刻字的年代,咱们的老祖宗为了竹简轻点字数少点,故意搞出来不少单字。例如为了形容47种不同的马,就硬生生造了47个字,现在咱就来看看这“马”字的47种“专业词汇”吧·········

    1. 驳(bó):毛色不纯的马.

    2. 駒(dí):额白色的马,

    3. 骧(xiāng):后右蹄白色的马.

    4. 馵(zhù):后左脚白色的马。

    5. 騱(xí):前脚全白的马

    6. 騚(qián):四蹄全白的马。

    7. 驓(céng):膝下白色的马,

    8. 驠(yàn)屁股毛色白的马。

    9. 騴(yàn):尾根白色的马,

    10. 駺(láng):白尾马。

    11. 骢(cōng)青白色的马。

    12. 驒(tuó):有白色鳞状斑纹的青马+

    13. 骓(zhuī):毛色苍白相杂的马

    14. 骃(yīn):浅黑杂白的马,

    15. 駂(bǎo):毛色黑白相杂的马。

    16. 駩(quán):黑嘴白毛的马。

    17. 駯(zhū):黑嘴的马。

    18. 驙(zhān):脊背黑色的白马。

    19. 骆(luò):尾和鬣毛黑色的白马。

    20. 駹(máng):面、额为白色的黑马。

    21. 驈(yù):股间白色的黑马

    22. 騽(xí):背脊黄色的黑马.

    23. 驔(diàn):黄色脊毛的黑马

    24. 騩(guī):毛浅黑色的马,

    25. 駽(xuān):青黑色的马。亦称“铁青马+”

    26. 騥(róu):多鬃的青黑色马,

    27. 骐(qi):有青黑色纹理如棋盘格子纹的马.

    28. 驖(tiě):赤黑色的马。

    29. 骊(l):纯黑色的马。

    30. 騢(xiá):毛色赤白相杂的马

    31. 騵(yuán):赤毛白腹的马.

    32. 骅(huá):赤色的骏马。

    33. 骝(liú):黑鬃黑尾巴的红马,

    34. 騝(qián):黄脊黑鬃黑尾巴的红马,

    35. 骍(xīng):赤色的马.

    36. 騜(huáng):毛色黄白相杂的马,

    37. 駓(pī):毛色黄白相杂的马。亦称“桃花马+”

    38. 骠(biāo):黄毛夹杂着白点子的马

    39. 騧(guā):黑嘴的黄马

    40. 騟(yú):紫色马

    41. 馼(wén):红鬃、白身、黄眼的马

    42. 骄(jiāo):六尺高的马

    43. 騋(lái):七尺高的马

    44. 駥(róng):八尺高的马

    45. 驹(jū):两岁以下的马

    46. 騑(fēi ):三岁的马

    47. 駣(táo):三四岁的马

    我直接一个好家伙,马有这么多说法,如果要我说,我只会说一个泥码。

    这要是搁古代。我妥妥就是文盲了。

    所以这玩意在汉语早就被淘汰了。但这在英语中,可还是大行其道啊。

    而且医学仍在发展,新药、新病也在出,然后新的词也在被创造出来,而且这些全是名词。还记得前面说过江湖黑话的一个特点吗,对名词进行替换,因为名词一旦进行替换,靠猜是很难猜的。世界上不只有医生一个行业啊,行业多了,中国有所谓“三百六十行”的说法,要是每个行业来套自己“专业名词”,那隔行真的什么都看不懂了。

    尤其跨专业、跨学科阅读医学,生物,化学,法律的书籍文献时;众多的专业词汇,即使对于英语母语者来说,也是一辈子都没见过的生词,完全是在读天书一样。

    这导致了一个严重的问题——整个社会开始走向事实上的“行业种姓隔离”。

    构建行业壁垒最简单的方式是什么?答案是构建一套自说自话的专业话语体系,并以此标准实行从业许可证制度。对····英美就正在这么干(法律、医学、会计都是典型案例)·······

    各行各业都在使用自己的黑话····不···应该说是“专业词汇”,并在不停地创造新的“专业词汇”,美国几乎每一个专业的行业,就是一门基于英语语法的专门语言,普通人真的很难学习。

    许多行业的成员,甚至以自己圈子的语言外人听不懂为荣。

    这也进一步导致英文单词越来越长,词汇量越来越大,辨识度越来越差。

    搞笑的是,随着“专业词汇”越来越长,以至于各个专业层面进行专业的交流也很不方便了,于是各专业为了内部交流方便,又发明了一堆缩写。

    相同的缩写在不同专业的意思完全不同。导致不同专业之间的人进行技术交流就更加困难了。例如;

    无人驾驶飞机,简称 无人机。英文Unmanned Aerial Vehicle,简称 UAV,百度百科有7个义项。平视展示系统,简称 抬头显示,或抬显。英文Head Up Display,简称HUD,百度百科只有1个义项。麻省理工Massachusetts Institute of Technologya,简称MIT,百度百科有8个义项。中国银行,简称中行,这不会有歧义吧?英文简称BOC,百度百科有6个义项。MBA,百度百科6个义项……PM,百度百科25个义项..USA,百度百科3个义项……

    几乎每个专业都有屎山一样的“专业词汇”,数量动辄以万计。

    这就导致英语中存在巨大的词汇壁垒。不同人的词汇量能差出数量级来。据统计数据,英美普通人的词汇量大概是2-3万多,专业人士能到5-8万这个水平,行业精英能到十万这个数量级,比如奥巴马、克林顿等政治精英的词汇量能达到10~15万。

    如此巨大的词汇量差距,真能让一部分人说出来的每一个词都是别人听不懂的,而且比中国的“江湖黑话”更进一步。“江湖黑话”不过是“你说的每一个字我都认识,连起来我怎么一句也听不懂”,英语能做到“你说的每一个词我都没听过,你真的在说英语吗?

    某种程度上,它们就是天然的筛选/隔离器,真是完美起到了阳春白雪和下里巴人的隔绝,成功实现了阶层隔离。

    这真是又梦回古印度封建年代的种姓制度了,底层基本“文盲”,各个行业(种姓)制造行业知识壁垒,垄断行业的话语权……

    因此,在英语国家,掌握1万单词的也就家庭主妇水平,真的什么专业工作也干不了,这才是对人最大的恶意,基本上你就被锁死在底层。没有2万个词别想读报,没有3万个词别想把周刊读顺(据美国联邦教育委员会调查,美国中学毕业生七成看不懂纽约时报),大学毕业10年后的职业人士一般都得懂8万单词,才能从事本行业的知识密集型的工作,才能有对相关领域发言讨论的资格。

    比如知乎常见的两个辩题:中药和西药,西方伪历论。

    我们不讨论哪方是对的,但你会发现,作为一个中文母语者,你只要有高中以上的知识,加基本的拼音打字能力,加互联网搜索能力,你就可以参加这些比较高深的辩题,而这一点,在英语语境里面是绝对做不到的,高中层面的英语词汇,绝对不足以支持你发表一篇比较有说服力的网络回答。

    也就是说,即便是在中文环境中烂大街的辩题,如果你放到英语语境中,你只会收获很多非常夸张的阴谋论,而非一个看起来还算正常的网络辩论,能完成正常网络辩论的,一定是有一定学历水平以上的人士才能参加的工作。英语在功能性上的隔阂,特别容易把专业人士从普通人里面筛选出来,而英语本身的特性就是是个大筛选器,普通人是跨不过去的。

    五、英语“种姓隔离”化的危害

    1、精英与民众的撕裂

    现代国家有一个算一个,都是依靠“全民体系”作为国本的。甭管是资本主义国家还是社会主义国家都是如此,现代老百姓拥有广泛的议政权。

    但英语这“半文盲debuff”+“种姓隔离”的特性,导致了民众和精英之间的对立程度特别大,比尔盖茨这样的人哪怕真的去非洲普及疫苗,也会被整上各种疫苗阴谋论,因为英语体系下,普通人和精英甚至可以说是两个物种,比如我们常说,(中文)每个字我都认识,但连起来我就看不懂了,在英文的表达环境里面是,你说的每个字我都不认识,连起来我更看不懂。

    通宝推:氵氵,大道至简,为什么不可以,chuchong,河兮兮,红军迷,广阔天地,脑袋,迷途笨狼,慧诚,exprade,瓷航惊涛,唐家山,冬晓,纳米小洞儿,尖石,肖羽,陈王奋起,潜望镜,贼不走空,
    • 我终于知道自己学英语越学越沮丧的原因了

      20多年了,我终于知道自己学英语,越学越沮丧,越学越没有动力的原因了。感谢楼主,感谢楼主。当年我英语畸烂,高考只有43分,全凭别的科目拉分,才过了普本线20分,在省内读了个普通本科,也不敢考研。当时我一直不明白为什么自己那么讨厌英语,越学越不愿意学,最后直接放弃,一度怀疑自己有什么英语学习障碍。20多年了,终于搞明白原因了。

    • 汉代许慎实际都总结好了

      点看全图

      古者庖牺氏之王天下也,仰则观象于天,俯则观法于地,视鸟兽之文与地之宜,近取诸身,远取诸物,于是始作《易》八卦,以垂宪象。及神农氏结绳为治,而统其事,庶业其繁,饰伪萌生。黄帝之史仓颉,见鸟兽蹏迒之迹,知分理之可相别异也,初造书契。“百工以乂,万品以察,盖取诸夬”;“夬,扬于王庭”。言文者宣教明化于王者朝廷,君子所以施禄及下,居德则忌也。仓颉之初作书,盖依类象形,故谓之文。其后形声相益,即谓之字。文者,物象之本;字者,言孳乳而浸多也。著于竹帛谓之书。书者,如也。以迄五帝三王之世,改易殊体。封于泰山者七十有二代,靡有同焉。

      拼音文字实际就是结绳文。一根绳子上打一些绳结,绑上点小树枝,贝壳,就是字母。一根大树枝,绑上几根字母绳子,就是一篇文章。结绳是有自己优势的,老子还希望民复结绳。

      道德经 80

      小 国 寡 民 。

      使 有 什 伯 之 器 而 不 用 ﹔

      使 民 重 死 而 不 远 徙 。

      虽 有 舟 舆 , 无 所 乘 之 ,

      虽 有 甲 兵 , 无 所 陈 之 。

      使 民 复 结 绳 而 用 之 。

      甘 其 食 , 美 其 服 , 安 其 居 , 乐 其 俗 。

      邻 国 相 望 , 鸡 犬 之 声 相 闻 ,

      民 至 老 死 , 不 相 往 来 。

      近代欧洲的工业革命,拼音文字和印刷术的生态化反是物质基础。而拼音文字导致的政治独立性,小国寡民特点应该也是各种创新涌现的人文基础。

      但拼音文字或者说结绳文的缺点 “: 庶业其繁,饰伪萌生 这个在知识体系趋向成熟,需要大一统的时候就必然暴露。

      而AI时代,实际是AI算法学习和使用人类全部有效知识大库的过程。阅读,分析,修订,输出类似卦辞的输出。汉字在造字的时候,就是 ”知分理之可相别异也,初造书契“。 那么AI大模型学习和有效掌握汉字人类知识大库的效率肯定是数量级优于拼音文字体系的。

    • 这是明粉实黑,攻击华夏文明的回旋镖

      人是有逻辑思维的。一个文章带来的不仅仅是结论,还有思维方式。很多坏心肠的人,喜欢这样明粉实黑。楼主是转载,以后要多警惕。

      一个著名的例子,就是用战狼式宣传来黑中国。如果没有战狼系列电影,这次明星的缅甸事件,就不会有那么大的负面影响。和平时期,本国军队作用应限于国界之内,本来是个常识。但是战狼系列渲染了一个虚假的逻辑:如果是强国,自己的军人就可以在境外用武力解决本国国民问题。那这次中国不能用武力解决妙瓦底问题,就成了国家的积贫积弱的证据。

      打个更浅显比方,在习主席穿唐装的时候,宣传穿唐装才是爱国,穿西装的都是西方走狗。那么下次习主席再穿西装上镜,不需要任何更多宣传,就黑了习主席。领导人们都很忙,但是不傻,所以那些宣传部门的坏人被狠整了一批。但是没有整完。

      具体到这个文,如果这里攻击英文的逻辑被承认,那么大量逻辑就可以同样用来反对中文。比如读音的不规则, 就有饼和拼的例子。而这里强调的汉语【望文生义】优点,其实是很多人小学学语文时期的噩梦。

      由于中国的舆论审查制度,所以现在敌人采取的手段都是这样间接的伤害。西西河类似的有意无意例子很多。给你一杯【赞中国】的美酒,里面却包含着【杀中国】的毒药,是西方反动势力在简体中文环境下的主要舆论斗争形式。

      通宝推:普鲁托,Swell,
      • 这也太扯了

        中英文的比较这些年有很多的共识:

        1、中文的信息嫡明显更高一些,有数据支撑。

        汉字的静态平均信息熵一般认为是 9.65 比特,如冯志伟通过大量实验得出此结果。孙帆和孙茂松基于《人民日报》的 11,978,549 字语料库,得到基于字符直接计算出的一阶熵、二阶熵与三阶熵分别是 9.62、7.15、6.65bit。

        一般来说,英文字母的平均信息熵约为 4.03 比特。

        若不考虑马尔科夫链因素,香农测算出英文的单位符号平均所承载的信息量约为 1.3bit。

        2、对应的,同样的信息,中文材料只有英文的2/3或者一半那么多。

        3、至于英文不断造新词之类造成精英与普通人的信息隔离,这个早就为人所诟病了。代码屎山名副其实。

        4、中文初学确实难。但是中文到了1000个字量以后,难度就开始明显下降了。

        5、有人号称AI逻辑会不自觉的使用中文语言进行逻辑分析,而对于机器来说,所有的语言都不过是一堆数字代码而已,所以它会自动选择最有效的途径来进行分析。这事听着感觉不太靠谱,但我不懂其原理,不做评价。

        所以这篇文章所描述的,本身就是完全靠谱的事情。

        通宝推:大道至简,潜望镜,
        • 中文的信息嫡明显更高一些,信息庶呢?
        • “AI用中文思考”可能是这个原因

          1. 中国早前科研虽然不领先,但一直都在跟随,人多时间长,中文语料足够多,覆盖方方面面;

          2. 中文科研论文通常会沿用或者引用英文关键词,中英文符号由此建立关联;量词、连词、介词、形容词等相对次要,搜索常用的是实体词,大概率有中英文对照;

          3. 中文信息密度高,关键字之间的关联路径更短,搜索路径更短或者所需矩阵更小,更容易冒出来。

        • AI用数学进行分析

          即不是汉语,也不是英语。而是词。重点的工作是google做的,把这些词(数字)建立一个数百纬度的矩阵。比如一个纬度叫部分-整体关系,轮子和汽车这两个词的在这个纬度关联度就很高,而轮子和房子这两个词的关联度就很低。你通过许多纬度把词建立关联。而AI,如果我理解的对的话,是Chat GPT这一类语言模型, generative pre-trained transformer. 关键词是transformer,就是我说的词与词之间的矩阵。

          所以本质逻辑,非要说的话,是类似英语这样的拼音语言,因为它的基本单位是词。汉语也没什么,把所有的词一一对应就可以了。

          • 我明确说了我对AI分析逻辑确实不懂,所以真心继续请教

            正巧陈经发了个文(陈大是不是还在河里混啊,所以跟这个帖子呼应了)

            汉字的优势从APP霸榜就能体现,现在来到了大模型

            有几段比较有意思

            4. 近期大模型让全球进一步认识到了汉字的优势,有的西方大模型居然用汉字思考了。不少西方人惊讶,在受到严重限制的情况下,中国居然迅速在大模型上取得了突破。有的西方使用者评论说,deepseek在英文“创意写作”上表现极好。这是汉字体系优势的另一个表现,而且更为本质。

            6. Deepseek的性能进步,除了大模型数据结构、训练算法、代码优化,新闻里没有说的,是对中文训练数据的整理、评估。业界传Deepseek非常重视数据标注,梁文锋自己都来打标,请北大中文博士来打标。高质量的数据,就象严师,让Deepseek R1有了非常强大的中文能力。它似乎以中文思维为底座,有了不一样的灵活思维,群众普遍反应和以前的大模型不一样。即使用英文输出,在创新写作上也能表现出能力。

            7. 因此,Deepseek取得性能突破,很可能受益于中文体系。一个简单的事实是,只有中文和英文能够以自己为主,构建对人类知识体系的完整理解。许多语言甚至连科学词汇都没有,生造新词也不行,还不如改学英文或中文。

            陈经也算是一个正经的中科大计算机系毕业,香港科技大学的计算机硕士。他应该不至于无缘无故胡言乱语吧。

            • 胡言乱语谈不上

              但我也不知道他在说啥。

              计算机只能计算。所有的东西都是二进制的数字。语言的最小单位是词。就像英语的最小单位也不是字母一样。 汉语最小单位也只能是词。 从这里说我看语言没什么区别。

              如果我这种业余的要去评价。孤立语好一点,毕竟一个格,一个态在机器学习里就必须独占一个token,有点冗余。 这点来看汉语有优势。但是汉语词与词之间没有断句,语法不严谨。这是缺点。

              更大的缺点是汉语资料太少,用来学习的东西少。这是没办法的。数据为王。

              本来各种AI模型你方唱罢我登场,很热闹。 DS一出来,声量太高。 只能说我认为应该先等等,观察一下再下结论。 你如果真是从根本上先进,那软件这种东西赢家通吃,优势会越来越明显。

        • 作为语言,信息嫡越高越好吗?

          首先,你这帖无论对错,无法支持原文的对错,更涉及不到。我说的很清楚,我反对的不是结论,而是借中国的结论,而塞骂中国的毒药。我反对的原文,和你这里说的显然不一样。

          其次,陈述事实的事,只要不造假,我欢迎。你这贴唯一有意义的信息是,你认为汉语信息熵高,所以有优越性。你这里的逻辑必须首先是信息熵越高越好,那样才会以信息熵证明汉语的优越性。你自己先问自己三遍我标题的问题,想清楚再回答。

          如果你回答是肯定的,那假设西夏文或者某个其他的语言,比汉语信息熵更高,那是不是可以说,西夏文比汉语更优越?

          其余你都不懂也不评价的捕风捉影,我更没必要说。但是现实是,没有哪个成功的通用语言大模型以中文素材作为主要训练材料。

          • 一码归一码,对AI模型来说 不会追求信息熵低,

            对语言来说要易于沟通交流,对文字来说要记录表达简洁清楚明白信息熵高。

            综合下来对AI来说 活语言里有比汉字更好的吗?

      • 真够扯的

        按你这说法,任何中国人或中国事物,都不能赞美,道理很简单,哪有人或物是十全十美,完美无瑕的。粉中国,就是实黑中国,这是正常人类的思维吗?

        通宝推:潜望镜,
        • 你读不懂,我可以教你

          你连反对我,都没有反对到点上。我以为西西河网友素质,不需要我再次解释呢:是不是十全十美,和能不能赞美不是一回事。

          自己家孩子谁都喜欢,45人的班里,期末考试语文考到第10名,值不值得赞美,能不能赞美?当然值得,当然能!因为考试成绩是个大家公认而且合理的标准。中国不仅可以赞美,而且可以赞美的地方多了。比如中国扶贫做的好,以每天两美元的绝对贫困人口占比,虽然不如欧洲发达国家,但是比很多国家好。中国男女平等做的好,女性相对男性劳动参与率高过大量那些天天嘴上唱妇女赞歌的欧洲发达国家。我这里的逻辑,以【每天两美元的绝对贫困人口占比】作为扶贫好不好的标准,【以女性相对男性的劳动参与率】作为衡量男女平的标准,都是堂堂正正的逻辑。以这些标准衡量,比中国好的就是比中国好,比中国差的就是差。

          反而有些人,孩子不考第一就要去打骂,乃至为了孩子第一,去生编滥造标准的,才是包藏祸心。假设你家孩子这礼拜感冒了,唱歌声音确实好听。若有人说,这样的嗓音才好,其余的小朋友都是SB。你会觉得他是为你家孩子好吗?你若承认了,感冒要不要治好?

          我虽然反对【战狼式外交宣传】,但我对《战狼2》电影本身没有任何意见,为宣发还帮过忙。我和吴京在他“贫贱”的时候就认识了,他本人不是电影角色。人家拍电影,老百姓看了过瘾愿意花钱,皆大欢喜。《变形金刚》、复联都能演,《战狼2》算啥。但是把电影当噱头,大肆宣传的坏人,是我反对的。今天骂吴京的,和当年借战狼胡扯的就是同一群坏人。我更不反对汉语,这是我唯一熟练掌握的语言,我怎么能反对?但是我反对这个文章及其原始作者,和那些借《战狼2》卖私货的人一样,都是包藏祸心。

          • 话都说不清楚,还教人

            你够自信的啊。啰嗦一大堆,你到底想表达什么?中国啥时候有战狼外交?这些不都是污蔑,中国正常表达自己关注而已,你一口咬定这些就是战狼外交,你谁啊?一个早认识吴京的人?呵呵。。你再翻翻上一篇自己的回文,给很多行为定性,这种心态爆棚到天的,成年人中确实少见。



有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河