作者:墨磊宁(Thomas S. Mullaney,斯坦福大学历史系)
译者:陈荣钢
1956年11月,中国中部城市洛阳的一位打字员完成了一项惊人的壮举。虽然从人们更熟悉的QWERTY打字机的角度来看,这一记录似乎并不显眼,但考虑到当时中国打字员的平均速度每分钟20到30个字符,这一成就就显得非凡了。更令人惊讶的是,打字员并不是依靠电气自动化或新型打字机来实现这一记录的,而仅仅是通过重新排列机器界面上的汉字。
自晚清(1644-1911年)以来,汉字字典一直按照分类学的方法来编排。到了1956年,这位打字员和毛泽东时代(1949-1976年)的其他许多打字员一样,将机器上的汉字重新编排成了自然语言字组,旨在最大限度地增加实际书写中经常连在一起的汉字的相邻性和相近性。
新中国成立之初(1949年至今)的报纸上充斥着各行业“劳模”的故事,我们不应该盲目接受这种夸张的说法而不加批判。然而,就洛阳的“模范打字员”而言,我认为1956年的报告是准确的。大量的档案来源和实物文物证明了这一点。本文中提到的打字员是共产主义早期由匿名排字员和打字员组成的更广泛群体的一部分,他们对后来被称为“预测文本”(predictive text)的语言技术进行了高度复杂的预计算探索。
在信息技术史中,中国内外都有一个迷人而未被探索的重要篇章,那就是毛泽东时代的打字史。这段历史不仅为我们提供了一个独特的视角,深入了解中国现代时期发展起来的庞大而复杂的信息基础设施(information infrastructure),而且在更广泛的全球历史背景下也具有重要意义。
从19世纪初开始,一直到20世纪,中国被卷入了一套并非自己设计的全球新秩序之中。在这个充满焦虑的时代,来自不同政治派别的中国改革者们进行了深入而批判性的重估,试图确定哪些中国文明的核心特征可以改革,以确保国家相对完整地过渡到这个全球新秩序中。
这些批判的目标包括儒家伦理体系、行政官僚制度和家族父权制等等。其中,对中国语言的批评最为激烈。许多改革者认为,废除汉字是废除“情感和制度上的纽带”以及“思维习惯”的核心。对于一些人来说,语言是中国问题的根源。钱玄同曾经说过:“废孔学,不可不先废汉字;欲驱除一般人之幼稚的、野蛮的思想,尤不可不先废汉字。”
出于语法、拼写或文化特点,有人认为汉语抑制了与现代性相关的认知形式。在这一传统中,批评者们相信人类被语言所支配,而中国人不幸地被一种与现代思维不兼容的语言所支配。
与以认知和文化为中心的中国语言批评者相比,另一个更为重要但却鲜为人知的批评观点是,中国汉字基本上不适应现代技术的要求,比如高效的信息组织、检索、复制和传输系统。
1925年,一位批评者写道:“众所周知,汉字难认、难记、难写。但除了这三个困难外,还有第四个困难:它们难以找到。”(英文直译)整个20世纪,出版商和教育工作者都对当时主流词典中查找汉字所需的平均时间进行了批评。图书馆科学家抱怨在图书馆目录中找到所需信息所花费的时间太长。国家当局则对在中国庞大而不断增长的人口中检索姓名或人口信息的效率低下感到痛心。
20世纪最初几十年,许多人认为中国陷入了严重的“信息危机”,一些人主张国家应该效仿越南或土耳其,进行彻底的文字改革。还有一些人用滑稽、怪诞的中文打字机形象来证明汉字必须被淘汰。
历史事实表明,汉字当然没有被放弃。相反,在过去的两个世纪中,出现了一群充满活力、多样化、跨国的个体,他们构建了一系列庞大而复杂的协调技术语言系统,这些系统主宰着汉语信息环境——索引、清单、目录、词典、盲文、电报、速记、排版、打字、计算等等。然而,历史的讽刺在于,学者们非常熟悉这段历史中的“失败者”,熟悉那些在中国内部呼吁废除汉字,改用英语、法语、世界语或多种竞争性罗马化方案之一的少数人。但是,学者们对于这些历史上的”赢家”几乎一无所知。
与那些更为著名和知名废字派相比,这些信息基础设施的建造者在当时寂寂无闻,他们留下了关于自己工作的片段性文献资料。他们是日常使用者和改进者,甚至没有获得过任何的荣誉。因此,本文要初步重建这段失落的历史,重点关注一群地方级别的文员和打字员。如我们所见,他们改变了中国现代信息技术的轨迹。
在描绘早期共产主义时期这种独特形式的技术语言实验的历史时,我将进一步提出,与其把这种技术语言实验理解为“想象”或“认知”,不如说它是特定政治环境下长期存在的、深刻的机器与人体之间关系的表现——或者像英格丽德·理查森(Ingrid Richardson)所说的“技术躯体”(technosomatic)复合体。
我认为,只有将共产主义时代排字匣上的字符重新排列看作是一个更长、历史上触觉、分散且大部分不可见的体验的集合,我们才能够理解。在这种活动的嗡嗡声中,无数次瞬间的微观历史、技术躯体的时刻——拿起字符、放下字符、在打字机上从一个字符移动到另一个字符、按下打字杆等等——才使得自然语言排列成为可能。因此,要理解亟待讨论的历史,我们必须融入中国技术语言实践的习惯,这是一种已经内化为“第二天性”(second nature)的历史,并因此被遗忘了。
激进的偏离:预测文本的中文打字案例研究
为了更好地理解毛泽东时代中国打字技术实验的类型,有必要着重介绍其中的一个例子,并将其置于更广泛的历史背景中。第一台商用的中文打字机于1910年代进入市场,由周厚坤和舒振东共同开发,由总部位于上海的商务印书馆公司生产。这台名为舒式中文打字机的设备,在一个长方形的托盘床内,大约有2500个常用汉字被刻在可移动的金属片上。这些字符根据使用频率(高频和次高频)被分成两个区域,然后按照通俗的康熙偏旁部首笔画系统的分类方案进行排序。
康熙部首笔画系统可以追溯到明朝晚期(1368-1644年),并在早期的清朝(1644-1911年)参考书籍《康熙字典》中被正式确定。这本字典以康熙皇帝(1661-1722年在位)的名字命名,他下令编纂了这部字典。
在这部字典中,超过四万个汉字根据组成每个字符的主要组件(或偏旁部首)被组织成了214个类别。例如,像“他”和“作”这样的字符,与其他使用“人”偏旁构成的字符一起归类;而像“洪”和“湖”这样的字符,则归入了使用“水”偏旁构成的字符组中。
第二级分类规则根据偏旁部首的笔画数将这214个类别中的每一个排列顺序进行了规定。例如,由于“人”部首由两画组成,而“水”部首则由三画组成,所以在字典中,“他”和“作”排在“洪”和“湖”的前面。在这214类中,第三级分类规则进一步根据组成字符所需的剩余笔画数对字符进行组织,从而使五画的字符“他”排在七画的字符“作”之前。直到20世纪后期,这一方法仍然是中国汉语词典中常用的组织方法。
中国打字员使用左手握住一个小手柄,并沿左右轴线操作字符托盘床,同时用右手操作一个可以在字符托盘床顶部四个方向移动的字符选择杆。当所需字符位于选择杆的正下方时,打字员按下打字杆,用自由浮动的字符金属片留下墨迹,将它压在压轮上,然后返回到金属矩阵的原始坐标位置。
1956年的文章中提到的打字员使用了同一种类型的机器(尽管由不同的制造商制造),但在样子和字面上都进行了“彻底的改变”。这位打字员打破了长期以来的部首笔画组织惯例,尝试了一种截然不同的分类方案。具体来说,这位打字员没有按照部首笔画的顺序,而是创建了汉字的自然语言排列,旨在最大限度地增加在实际书写语言中经常连在一起出现的字符的相邻性,无论是在常用的两个字符的组合(在中文中称为“词”)中,还是在共产主义术语中的关键名称和短语中,如“革命”、“社会主义”、“政治”等。
为了简要说明这个系统(稍后我们会详细介绍),我们可以查看1953年引入这种新打字系统的一部分样本排列。在下面的表格中,我们可以看到这种实验性组织的原则。
从灰色阴影区域中的字符“告”开始,我们可以在相邻的单元格中找到与之配对的字符“报”和“转”,每个字符都可以与“告”组合成常见的两个字符词:报告、转告。我们还可以看到这个联想系统中的更深层次。在“报”字符的旁边,我们找到了另外三个可以与“报”有意义地组合的字符:承、汇和传,分别可以组成承报、汇报和传报。还有其他与字符“上”相邻的组合,可以分别与“下”、“边”和“述”组合成“上下”、“上边”和“上述”。
总之,在上面的区域中至少有25个完全相邻的组合,还有一组更多的近距离组合。这个样本区域中只有30个单独的字符,总共有2450个字符(我们很快就会看到,它们很可能以完全相同的联想方式组织)。如果这些字符按照部首笔画系统组织起来,那么它们就不会相邻。这种密度令人印象深刻。在毛泽东时代早期,使用这种字符组织方法的打字员正做着现代最普遍的技术语言实验。
从移动打字到移动打字机
在中华人民共和国的预测文本中文打字机中,最核心的特征是字符在排字匣上的组织形式。我们关注这种重组逻辑,它是一种明显以身体为中心的逻辑。这套系统废弃康熙部首笔画系统,转而采用高度个性化的分类系统。每个打字员都调整字符排字匣的布局以适应自己身体和记忆的特点。因此,我们首先需要关注“躯体有机语言”(somatically organized language)的实践。
在信息系统中,根据身体因素组织文字模块的做法已经有几百年的历史。这种做法体现在排字匣中的字母排列、打字机和计算机键盘上的字母排列,甚至在电报代码中短脉冲和长脉冲分配给字母的方式上。这种现象非常普遍,但也异常奇特——重新排列字母,不按字母顺序排列。
近年来,技术语言系统颠覆了字母顺序,根据一系列因素重新组织了文字模块,这些因素包括身体模式和偏好(比如手的形状、不同数字的能力等),包括实际书写语言的模式和偏好(比如特定语言中特定字母组合的相对频率)。
电报代码就是一个例子。它们根据字母的使用频率分配了不同长度的脉冲模式,这样做的目的是提高人们的工作效率。此外,还考虑到了人类听觉系统容易混淆相似脉冲序列的情况。这些都是在设计技术语言系统时考虑到的身体因素。
这种现象在全球范围内都存在,并且许多其他语言的打字机和电报代码也考虑到了类似的问题,例如阿拉伯语、希伯来语、俄语、泰语和柬埔寨语等。因此,除了活字印刷、打字和电报在沟通产出方面带来的革命性影响之外,所有这些技术都是早期革命的产物。其中,字母顺序被纳入了身体的考量因素。
在欧洲字母顺序被推翻的几个世纪之前,中国活字印刷的发明引发了一场早期的符号革命。长期以来的汉字分类做法在某种程度上被降级,并置于围绕身体的新系统的管理之下。这个转变可以分为两个相互关联的部分——首先是字符频率的概念,或者说”常用性”;其次是在排字匣的组织上,要注意身体偏好与实际书写语言模式之间的关系。
首先是常用性的概念。我们可以看到,与木刻印刷和手工雕刻原版的做法相比,模块化印刷首次要求操作者敏锐地意识到打印给定文本所需的不同字符总数,以及每个这些不同字符所需的重复活字总数(也就是它们的相对频率)。
相比之下,常用性的概念不是手工雕刻或木刻印刷必须关注的事情。一个例子来自乾隆时期(1736-1795年),发生在四库全书编纂项目期间。自1773年开始,编纂委员会审查了10000多部中文著作,选取了3451部进行编纂。金简(字可亭,负责管理武英殿刻书事务)向皇帝的第一次奏疏中,他请求批准制作总共15万个活字木板,并进一步规定需要切割大约6000个最常用字符的10到100个重复字块。
当配备了正确比例的字符后,活字印刷的第二个关键维度在字符匣的组织中得以体现。在这里,我们首次见证了康熙部首笔画系统受到身体支配的情况,金简的词库分为两大类别,使用频率较高的字符将更接近排字员进行组织,而极少使用的字符则将被隔离到较远的位置。
因此,与西方类似,中国在书写技术方面的组织逻辑开始与字典和其他参考资料有所不同。虽然在西方,字母顺序是主要的分类模式,但在中国,部首笔画的组织仍然是主流,至少直到20世纪初。然而,我们看到,中国活字印刷中的字符组织方式早已摒弃了传统的字典顺序,转而采用了新颖的身体逻辑,这与世界其他地方采用的非字母、受身体启示的排字方式有相似之处。
常用性和中文打字机
中国字符的形体排列方式成为排字的基础。它也奠定了一项新技术的基础,那就是19世纪末出现的中文打字机。第一台正常工作的中文打字机由在北京东边通州从事传教工作的长老会传教士谢卫楼(Devello Sheffield)设计。
根据他的备忘录《中文打字机:实用性和价值》(The Chinese Type-Writer, its Practicability and Value),谢卫楼从19世纪80年代开始研制这个装置,早期的实验基于中国邮票的发展,使传教士能够一次印刷一个字符。他说:“通过经验,我发现我可以像中国学者通常书写字符一样迅速地使用这种表格化邮票系统,在五年时间里,我不断地在写作中使用它们。”基于这一经验,谢卫楼开始考虑将这些邮票引入一个统一的装置,这受到了美国打字技术普及的启发。
在谢卫楼于1897年完成的机器中,我们发现了进一步涉及常用字符和排列方式的情况。他“精心挑选用于通用的字符”,想知道他的机器需要哪些字符——这个问题在中国排字中已经变得非常重要了,就像我们之前提到的那样。为此,他开始频繁地去当地的铸造厂和排字办公室,与那些通过切割、锻造和使用汉字字体积累了丰富经验的专业人士交流,这些人对哪些字符被最频繁和最少使用有着直接的了解。
此外,谢卫楼肯定熟悉姜別利(William Gamble,1830-1886)的工作,他是一位出生于爱尔兰的美国出版商,于1858年被派往中国监督宁波长老会印刷厂的运营。在两位中国学者的协助下,姜別利花了四年时间检查了4166页的中国印刷品,总计包含大约130万个字符。
姜別利的研究得出了对汉学界来说可能是令人激动的结论——在《康熙字典》中找到的4万多个字符中,只用5150个字符就足以生成文本。他进一步扩展了他的发现,开发出一种新颖的排字匣。就像谢卫楼后来的机器一样,这种排字匣能够让排字员在自己不动的情况下就能够接触到所有这些高频字符。基于这项研究,谢卫楼估计“中国学者的工作词汇量很容易控制在六千个范围内。这个列表甚至可以减少到四千个,只有极少数情况下才需要超出这个列表来表达思想。”
谢卫楼的新式刻字技术与印刷机不太一样,他打开了新的探索方向。他决定比印刷厂里的其他人更进一步地运用常用字符的概念,不仅把语言分成常用和不太常用的字符两类,而且干脆把不太常用的字符从他的机器里去掉了。
谢卫楼选出了一套包含4662个字符的字符集,把成千上万其他字符都排除了,这在处理不太常用字符的方式上有了明显的变化。对于排字员来说,他们需要在处理极不常用的字符时花更多的精力,因此这些字符可能会越来越少地被使用,但它们仍然以同样的方式被铭刻在文字中。
相比之下,谢卫楼设计了他的机器,使得要产生任何一个“第4663个”额外字符,操作者都需要采用完全独立的方式来刻字,这种方式跟机器本身无关(比如,用刷子或钢笔在页面上手写缺失的字符)。他实际上把中国的文字空间分成了两部分,沿着已经被无数次使用的可动活字印刷的基本方法开辟了一条新路。
在字符组织方面,谢卫楼的机器也基于某些加强的排字原则。他的机器一次只能刻录一个字符,因此只需要一个副本,他能够把所有字符都放在手臂的可及范围内,创造出一个全能的机器,实现排字员内心里难以企及的静态效率理想。
谢卫楼完全摒弃了需要移动的需求,将注意力完全转移到了身体的上肢,从而产生了一个全新的理想——最大程度地减少操作者手部的运动。为此,谢卫楼进一步将他的4662个字符细分为三个区域——第一个区域包括726个“非常常用字符”;第二个区域包括1,386个“常用字符”;第三个区域包括2,550个“不太常用字符”(另外一个分组包含162个特殊的“未列入表格的字符”,由于它们对谢卫楼及其传教工作的重要性,这些特殊字符在非常常用字符列表中被重复)。
理想情况下,如果他的四个区域的边界设置得当,他的大部分时间将花在第一个区域非常常用字符的狭窄范围内,需要穿越越来越短的距离。谢卫楼因此创造了一个加强版的排字办公室和排字员的身体,使人类操作者能够环绕一个曾经环绕着他的空间。
通过从一个固定位置操纵整个机器,他还发明了一种新型的身体,一种静态、灵巧的“中文打字员”,今后,所有进一步的改进都将集中在上身、手指、手腕等部位。如果这些部位构成了排字实践中的整体的一部分,那么现在这一部分成了整体,在中文打字技术领域里形成了一个全新的技术躯体的范畴。
中途与机器相遇:中文打字学校中的人机共建
谢卫楼的机器从未进行大规模生产,然而在这里介绍的他系统的两个特点却延续下来,成为了后来的中文打字机标准组织系统。从上文介绍的舒式中文打字机开始,一直到后来的竞争对手(俞斌祺中文打字机和日本制造的万能中文打字机等),每一台批量生产的中文打字机都基于常用性方法。
字符像在谢卫楼的机器上一样,根据频率划分为不同区域,这些区域被组织起来,以最小化最常用字符与打字员身体之间的距离。然后,每个基于频率的区域才按照康熙部首笔画系统进行分类。与谢卫楼的机器一样,民国时期(1911-1949年)打字机的中央区域专门用于存放最常用的字符,左右两翼则专门用于存放稍低频率的字符。还有一个专门用于“特殊用途字符”的小区域(特用文字),我们将在下文谈到。
虽然谢卫楼为中文打字机的发展做出了贡献,创造了一种符合久坐身体逻辑的打字装置,但他并没有进一步提出专门的身体训练计划或课程。虽然谢卫楼已经开发出从一个字符到另一个字符的操作方式,但他从未将这些想法记录成具体的培训方案。
然而,民国时期的中文打字学校很快出现了一些培训计划。20世纪10年代,随着中国打字机的问世,上海、北京、天津、重庆等大城市迅速涌现了许多私立打字学校,其中包括一些仅有一到两间教室的小型学校。在这些学校里,年龄在十几岁到二十出头的年轻男女接受了为期一到三个月的培训,学习如何操作这项新技术。
随着时间的推移,这些学校中的打字员几乎全是女孩,她们被训练以适应机器的要求、应对机器的局限,并更有效地利用机器的功能。在某些方面,中国这一时刻与之前的欧美案例相似。就像罗马字母打字机的出现改变了西方文本生产过程中的工作方式一样,中文打字机也催生了一种新类型的身体——中文打字员。
与此同时,就像QWERTY键盘改变了欧美人的打字习惯,导致了手部肌肉的紧张和姿势的固定,中文打字机也给打字员带来了新的身体感受和挑战。这种挑战包括新的身体姿势、手指的灵活性、协调能力以及心理压力。另外,就像罗马字母打字机的出现与性别政治有关,一些中国打字机公司也将年轻女性视为他们新机器的主要用户,强调现代办公室需要一位年轻女打字员。
然而,从另一角度看,在20世纪上半叶的中文打字教材和学校资料中,我们可以发现中国打字训练的具体特点,这些特点源自常用性和汉字本身的实践。从身体的一个讨论和强调最多的部位——眼睛开始,我们可以看到,与字母系统中“盲打”的要求相反,中国打字员被要求严重依赖他们的视觉能力(无论是直接的还是余光的),并将其提升到越来越高和更微妙的状态。
相较于简单地找到一个字符,然后打字,接着再重复这个步骤,训练有素的中国打字员被鼓励要提高对“即时未来”的敏感性,也就是下一个字符。当开始输入第一个字符时,他们已经开始将一部分注意力放在下一个字符上,这样每次打字动作都充满了对下一个字符的期待。
为了培养这种敏感度,打字机教材让学生通过一系列的练习来进行训练,范围从文职的日常事务(比如复制商务函件)到明显的政治内容(比如复制孙中山的遗嘱、“中国国民党第一次全国代表大会宣言”等政治充满活力的文本)。
这些练习有助于让学生熟悉单个字符的绝对位置,但更重要的是,让他们了解这些字符之间的几何关系,尤其是那些经常搭配在一起的字符。通过练习这些词汇,学生可以培养肌肉记忆和对词汇几何的敏感度,这些几何关系在他们的文职工作中会反复出现。
第二个例子关于打字员如何通过更微妙的方式训练自己,使得他们对于雅克·德里达(Jacques Derrida)和其他理论家在更抽象层面上所称的“能指的物质性”(materiality of signifiers)变得敏感。每当打字员按下选择杆时,都需要精确地调整力度,以适应每个字符的重量,这个力度直接与字符的笔画数对应。
经过训练的操作员会不断地调整敲击较重和较轻字符的力度,以确保文本的一致性,同时避免刺穿纸张。因此,通过这项技术,笔画数的概念被转化为具体的身体逻辑。到了20世纪40年代末,中国各地都开始出现了这种规训实践,打字员们使用打字机,并进一步使自己的身体与之相适应。
然而,他们试图整合的这台机器本身已经体现了某种先前的“身体计划”——在可移动活字印刷的背景下重新组织语言,使之更适合身体。因此,在民国中期,人们试图体现出机器已经在构造中具备某些人类特征,这是一种递归过程。在中国打字机中,我们依然可以看到中国排字工的影响。
中国文字与大众科学:从激进的笔画排列到预测文本
20世纪50年代,在中华人民共和国初期,发生了一场新型的身体计划,一些排字工和打字员开始对他们的机器身体施加规训压力。这群分散的排字工和打字员完全摒弃了长期以来的部首笔画组织系统,开始制定自然语言系统来对汉字进行分类,并重新设计他们的字符架,以更好地适应汉字和他们自己的身体。在毛泽东时代,我们见证了历史上的第二次递归——重新设计机器以反映人类,而这些人类本身已经反映了机器。
要了解毛泽东时代打字员对机器符号接口进行的实验,我们可以将其与我们更熟悉的字母打字机进行对比。不同于为字母(和音节)设计的打字机,这些键盘接口在它们各自的历史早期就已经稳定下来了(无论是QWERTY、AZERTY还是其他键盘布局)。中文打字机上的字符构成和排列则一直处于不断变化之中,具有一种可塑性,这对于机器的正常运行至关重要,并且受到了发明者、制造商和操作者的积极鼓励。
与其他语言的打字机不同(如英语、法语、俄语、阿拉伯语等),中文打字机的符号接口从未稳定过,也从未被设计成稳定。中文打字员从不接受他们的字符架的默认设置。实际上,他们被要求扮演“重组工程师”的角色,成为“技术变革的推动者”。
因此,中文打字机字符架上字符的不固定可移动性就显得尤为重要。这与其他语言和其他地区的打字机不同,中文打字机的接口必须保持灵活,字符的位置必须可移动,因为这是打字过程的核心。因此,要理解中文打字机字符架的符号接口为何从未稳定,我们必须考虑到机器本身的特性以及上述共通使用系统的内在历史。
中文打字机固有的流动性和预测文本的早期实验
正如上文所述,通用型中文打字机字符架仅包含了汉语众多的几万个字符中的2450个,这只是总数的一小部分。尽管这些字符占据了典型商业、行政和文书工作中所需字符的80%以上,但却永远无法涵盖整个汉语词汇。通用型系统存在一种持续不断的变动,这种变动源于一个持续存在且无法解决的词汇代表性问题——需要不断确保自己的机器配备了恰如其分选择出来的2450个字符。
从一个字符架到另一个字符架,这2450个字符中有时会有多达千种不同。在宏观层面上,打字机公司、教师和操作员必须确保他们的出厂字符架配备了最新的字符集,在任何时刻符合多数办公室所需的词语和名称。
例如,在1928年之前,华文大字机(约1917年发明)的字符架包括“直”字和“隶”字,可以组合成“直隶省”的名称。然而,在30年代的于型号中,直隶不再作为一个省份存在,被并入了周边省份和新成立的河北省。因此,虽然“直”字被保留在新机器上(因为它是许多其他复合词中出现的字符),但“隶”字被删除了(因为它是一个相对不常见的字符)。
这个“词汇—本体论问题”也在地方层面上起作用。例如,在警察局构成常用字符的东西,可能在银行中是一个“罕见字”或“冷僻字”,反之亦然。
基于这种优化和波动的过程,字符的排列也发生了分类,特别是在低频和高频区域。例如,字符“毛”在20世纪30年代到50年代之间发生了巨大变化,从民国时期机器上的较少使用字符区域移到了50年代万能打字机上的高使用区域。这并不是因为中国人的头发变多了,而是因为这个字符的新政治意义,它是伟大领袖毛泽东的姓氏。因此,即使是在字符保留的情况下,从一个字符架到另一个字符架的过渡中,位置的变化通常也有必要,因此进一步促成了这种状态的波动。
在这种波动状态中,民国时期字符架中出现了一个与其他部分截然不同的区域。在字符架的一个狭窄区域中,有一条宽度为四列、深度为三十四行的窄条,专门用于“特殊使用字符”。这些字符并不是按照部首或笔画数来排列,而是以常见的两个字符或多字符序列的形式出现,比如“中华民国”。
打字员将这个区域用于排列组成中国省份名称的字符。比如,字符“蒙”和“古”水平排列在一起,组成了“蒙古”的名称。当字符同时出现在多个地名中时,排列就变得更加复杂和有趣,比如“江”、“湖”、“南”、“西”、“东”和“山”等。以“江”为例,我们发现字符被安排在一起,在“江”的左侧是“浙”,组成了“浙江”的名称,在它的左上角是“苏”,组成了“江苏”的名称,在它的左下方是“龙”,在其下方是第三个字符“黑”,组成了“黑龙江”的省名。
从民国时期的特殊字符区域可以看出,人们早在50年代之前就已经构思并尝试了非部首基础、自然语言排列的概念。在很多方面,这并不奇怪,因为这是解决前文所述技术躯体问题的一种可行方式——在语言空间中更有效地移动和操作字体。
因此,需要解释的是,为什么这种方法在共产主义时期而不是在民国时期成为关注和探索的焦点。要解释这一转变,就需要扩展我们对中国打字机作为一种技术躯体形式的讨论,并更加明确地考虑它如何被卷入与毛泽东时代独特的社会政治背景相关的方式。将打字机作为社会技术整体来审视,并将由此得出的见解与我们已经讨论过的技术躯体融合在一起,我们才能找到问题的答案。
潜能与催化
要理解毛泽东时代早期自然语言实验的出现,我们必须思考1949年共产主义革命后发生的两个关键政治变化。
第一个是新兴的知识生产政治,特别是中国共产党对所谓的“大众知识”或“群众知识”的支持。就像当局在古生物学、医学和地震学等各个领域大力推动的非精英参与一样,他们也呼吁对中国语言进行全面的自下而上的重组,建立一种大众分类系统,既可以摆脱早期的汉字分类模式,又可以更好地反映“普通人如何组织他们的语言世界”。如果可以使医学和自然科学“无产阶级化”,并“挑战科学是精英的领域”的观念,那么为什么不也挑战脚本组织的方式呢?
第二个转变涉及到一种前所未有的制度化和采纳的政治话语:一种“意识形态范畴和语言的系统化”,它开始影响甚至定义了共产主义时期开局十年内整个文本生产领域。这不仅仅是中国共产党关键词如“斗争”、“无产阶级”等的大规模流传,还有像“意见”和“讨论”这样的似乎是常规词汇但具有特殊意义的词语的不断扩展。这两种新条件(中央发布的无产阶级化命令,以及高度“可预测”的修辞)结合起来催生并因此改变了字符架,使它形成了前所未有的语言形态。
虽然很难确定这一过渡的确切时刻,但最早和最清晰的例子可以在一个名叫张继英的排字工的活动中找到。1951年,《人民日报》的一篇文章把他介绍给读者,文章题为《开封排字工人张继英的先进工作法》。张继英在郑州和后来的开封担任排字工已经有十多年了。他接受过老式的“二十四盘字架”和新式的“十八盘字架”的培训(译注:《人民日报》原文为“张继英工作法的特点之一是改二十四盘字架为十八盘”),并且在职业生涯中表现出了非常可观的排字速度,从每小时1200到2200个字符不等。
然而,人民共和国成立仅几个月后,他突然受到了灵感的冲击,并开始进行广泛的实验性字符架重组,这一实验最终于1951年创下了“每小时3000多个字符”的壮举。张继英后来超越了自己的个人纪录,进一步推动了他的新字符排列系统,并取得了前所未有的成就。他在一个小时内排版了4778个字符的纪录,几乎是每分钟80个字符,这一壮举于1952年7月29日被电影制片厂拍摄下来。
根据对张继英工作的首次公告,国家媒体发布了对他方法更详细的介绍。张继英的字符架上有超过280个双字符组合,八个三字符序列,甚至还有七个四字符序列,这种组织方式他称之为“连串”。此外,这些序列并不固定,而是根据正在生产的文本性质以及整体政治环境而变化。有时候,主题可能是“工人运动的材料”,因此促使张准备了诸如“生产”、“经验”、“劳动”和“记录”之类的组合。在其他时候,主题可能是更具时代特定性的宣传活动,促使张继英准备了“抗美援朝”之类的术语和短语,这是朝鲜战争时期的大规模动员运动。
张继英的方法在某些重要方面与前文提到的民国时期字符区域的特殊使用存在联系,然而也存在一些不同之处。与民国时期不同的是,张继英不仅涉及地名如“中国”,还包括共产主义术语中使用的词语和专有名词,如“革命”、“美帝”、“解放军”、“农业”等复合词。
此外,他将这种组织方案扩展到了几乎整个字符架,而不仅仅是一个小的、专业化的区域。他的方法是将自己整个技术身体复合为党的修辞化身,这不仅仅是机械地重复某些关键术语,而是指他身体的每个部分(手指、手掌、手腕、手肘、眼睛、余光、关节、运动、预期反射)都与该修辞的独特韵律调谐,也最大程度地敏感于此。
当局对张继英的实验做出了不同的反应,他们在张继英的成就中看到了一个绝佳的机会,精确地提炼了当时非常重要的无产阶级寓言。这个寓言突显了识别和公开庆祝“劳模”的重要性,这些人利用个人主动性和空闲时间将自己所在行业推向了超越想象的境界,颠覆了广义上的“传统”,向群众展示了创造的潜力和对现状的不满足。
当局随后邀请这位排字工参加了1952年的“五·一节”庆祝活动,协助共同撰写了一本更深入解释他方法的文集,并资助他在全国各地的出版社巡回讲解。最终,他被吸纳为党员,并鼓励其他人效仿他的方法。
预测文本与中文打印机
不到两年后,自然语言组织方法就被应用到了中文打字领域。1953年11月,《人民日报》介绍了一种新的打字方法。这种方法与张继英的连续排列方法相似,但利用了打字机版面的形状,将线性、一维的排列扩展成了二维的x-y矩阵。这个新方法的操作原则叫做“辐射复合”,就是以一个字符为核心,然后向外扩展,填充每个字符周围的三到八个空间,尽可能多地放置相关字符。
由于这种多维性,打字员不仅可以左右排列相关字符,还可以尝试垂直和对角排列。这不仅增加了可以在一定空间内填充的多字符组合和序列的数量,还使得可以将这些小区域串联成联想网络。通过摆脱传统的笔画排列方式,打开了无限可能性的空间。有了大约2500个字符在版面上的情况下,打字员可以尝试大量不同的排列方式,实现了字符排列的全面民主化,每个打字员都可以根据自己的意愿进行版面排列。这样的系统既适合个人的身体特点,也符合当时毛泽东时代的语言表达方式。这也为毛泽东时代的打字员提供了一条通向工作稳定的战略路径。
面对无限可能性,这些打字员并没有盲目地重新排列字符,而是在两个不同地点的打字员之间有一些共享的模式,这些模式揭示了这一阶段版面实验的因素和策略。这些打字员参与了持续的、情境化的过程,这与其他用户机器背景中描述的过程类似。在这些打字员的情况下,这种过程由三方面的关系引导和限制——首先,是他们自己的身体特点;其次,是当时的语言、机械和政治目标;第三,是机器和中文书写的功能和限制。
从“毛”字(如毛泽东)开始,我们可以将这两台机器相互对比,并与根据部首笔画排列的民国时期机器进行对比。如图所示,在民国时期的机器上,“毛”字是按照部首笔画系统排列的,就在与其相同组件构成的“毫”字(意为“微小”或“细毛”)上方。
相比之下,在联合国教科文组织和联合国的新型中文打字机上,“毛”字的位置表明这两位打字员在权衡完全不同和新的一组考虑因素。这种排列的第一个和明显的目标是尽可能快地制作出两个对共产主义修辞至关重要的名字:“毛泽东”和“毛主席”。对更广泛的版面进行粗略调查,会发现许多类似的例子,包括“委员会委员”、“独立”、“计划”、“进攻”、“民族”等术语,还有许多其他数百个。
同时,我们也看到这种排列中存在着巨大的个性化空间,除了显性的政治修辞外,还有许多其他因素需要考虑。要创建一个个性化的预测文本版面,必须确定在版面上包括哪些字符;如何制作相邻的两个、三个和四个字符序列;在哪里以及如何创建这些相邻关系;在整个版面上放置中心最多的字符的位置(以避免拥挤或挤在一起);如何放置某些“死胡同”字符,这些字符仅限于非常特定的两字符配对(如天津的“津”字,它只与少数其他字符配对);如何塑造这些配对的方向性,等等。
预测文本版面很可能还有一个记忆维度。也就是说,打字员会如何使用关联聚类不仅加速打字速度,而且作为记忆辅助工具,记住特定字符的位置(例如,通过记住“美”字是“美帝国主义”的一部分来记住“美”的位置)。这并不是简单地制作机械化的短语,而是一种深度而微妙的记忆实践和话语物质化。
1949年后的中国打字员将这种自然语言排列的实验推向了极端,甚至重新排列标点符号和数字成为预测性的聚类。就标点符号而言,我们看到在20世纪上半叶,中国打字员并不将逗号、句号、问号、分号等一起作为一个版面放置,而是将它们与经常或总是相关的字符相邻放置。问号的情况最具说明性。由于中文通过一组有限的语气词来表达疑问句,这些语气词通常后面跟着一个问号,因此,联合国教科文组织的打字员决定将这些语气词和问号放在一起。
如下图所示,问号两侧是最常见的疑问语气词“吗”,用于将陈述句转变为疑问句而不改变语序的“吧”,用于话语末尾表示一种“怎么样”的建议型语气词“呢”。与上文提到的“毛泽东”的例子类似,在联合国教科文组织和联合国的打字机之间发现的差异同样具有启发性。即使这些打字员有着某种共同的分类本能,但这种本能在版面结构上表现出明显不同的特征。
当我们集体思考所有这些微小的变化,在所有这些微观层面预测即将到来的未来时,这些变化汇集成了一种革命性的东西。我们将这两个版面想象成“热点图”,其中(一)每个单元格的颜色表示一个给定字符能够与相邻字符组合形成实际的双字符词的数量,颜色因数量深浅变化。(二)黑色代表数量为零(表示该字符不能与任何相邻字符有意义地组合)(三)红色或灰色的色调则对应着1到8之间的数值范围,其中8表示该字符可以与所有相邻字符有意义地组合。通过这种方式,我们可以开始理解这种新形式分类的影响。
这些打字员创造了现在被称为“预测文本”或“自动完成”的概念和实践的基础。他们的工作代表了中国信息技术中的一次“预测转变”,这是对分类学的革命性本土化。正如这个可视化“热点图”所示,毛泽东时代对中文打字机的实验导致了一个明显“更热”的版面,只有极少数字符没有与至少一个其他字符相邻,而这些字符在自然语言中往往是相邻的。
对比之下,进一步显示了这种实验性运动的明显去中心化和民主化维度。尽管目标是更完美地反映毛泽东时代中国的机械性和重复性短语,但每个版面都是完全个性化和个人化的。事实上,版面变得越个性化,就越能完全与和体现党的话语交融。
结论
本文探讨一种新型的中国技术语言实验的历史,这种实验在毛泽东时期兴起,但实际上是人机合作构建的一部分。我们看到,这种预测文本实验是长期存在的技术条件的产物,在20世纪下半叶被一种新的社会技术情境所推动。在某些毛泽东时代的机器上,我们看到了一种实际上无限的、深度个人化的通往“新话”之路,这通常被描述为反乌托邦的隐喻。
通过将符号界面完全服从于身体,而不是集中于一个假设的中心身体,而是向所有民主、经验和私人确定的身体,人们与毛泽东主义修辞体系的联系变得更加紧密和个人化。机器将打字员的身体延伸到修辞中,将修辞延伸到他们的身体中,形成了混合的身心认知。这些发展对于20世纪晚期到21世纪信息技术的更广泛历史有着重要意义。
预测文本原则不仅适用于T-9文本输入的发明,而且比人们预期的更早地在纯机械背景下和被排除在现代信息技术历史之外的语言环境中得到了应用和发展。这些发现对于计算机与中文语言之间的特定历史关系也有重要影响。中文打字技术早在计算机出现之前就是一种彻底的、甚至是激进的技术语言实验的场所,其历史意义在中国乃至全球范围内尚未完全被认识到。