作者:本杰明·布拉顿(Benjamin Bratton,加州大学圣迭戈分校视觉艺术系)、布莱斯·阿圭拉·阿卡斯(Blaise Agüera y Arcas,Google副总裁、Google Research研究员)
译者:陈荣钢
来源:NOĒMA,2022年6月12日
上个月,新闻中出现了一则奇怪的争议,Google工程师布莱克·勒莫因(Blake Lemoine)在公开发布与LaMDA对话的记录后被停职。LaMDA是基于大型语言模型(LLM)的聊天机器人,布莱克声称它有意识、有感情并且是一个人。
与大多数其他观察者一样,我们并不认为LaMDA具有布莱克认为的“意识”。他的推断显然基于“动机驱动”的拟人投射。同时,也有可能这些人工智能(AI)在某种程度上有“智能”,甚至在某种程度上“有意识”——这取决于这些术语的定义方式。
然而,如果这些术语被过于以人类为中心的方式定义,它们就没太大用处。人工智能可能具有其中一种特征,但不具备所有特征,因此区分感知、智能和意识可能更为重要。
举例来说,某个人工智能在某种程度上可能表现出真正的智能,但在感知方面,可能仅仅是以有意识地感知和根据外部信息进行有意识的有限行动。或许对于人工智能哲学而言,真正的启示在于现实已经超出了现有语言解释的范畴,因此需要更加精确的词汇。
人工智能和人工智能哲学的历史紧密相连,彼此在不平衡的方式下相互影响。就像核心的人工智能研究一样,人工智能哲学也经历了不同的阶段。有时候,它满足于应用哲学(“康德会如何看待无人驾驶汽车?”),有时候则充满活力地创造新概念和术语,以理解技术在出现之前、期间和之后的意义。如今,我们需要更多的后者。
我们需要更具体、更有创造力的语言,可以解决诸如“感知”、“伦理”、“智能”甚至“人工”等术语周围的混乱,以便命名和衡量已经存在的事物,并指引未来的方向。如果不这样做,就会导致混乱。
例如,有些人渴望推测岩石和河流是否具有感知能力,却对人工智能不屑一顾,认为它只是企业的宣传手段;而另一些人则认为他们的聊天机器人具有人类的属性,因为所有可能的智能都应该类似于人类的形式和外观。这种文化分歧是一种糟糕的替代,缺乏可行和富有创造性的前瞻性。合成语言(synthetic language,由机器智能产生或解释的语言)的特例,说明了当前方法的问题所在,但也展示了可能的其他方案。
本文作者多年来一直关注人工智能对社会的影响。我们分别担任Google副总裁(布莱斯·阿圭拉·阿卡斯是勒莫因的评估者之一)和技术哲学家(本杰明·布拉顿将与伯格鲁恩研究所共同指导一个关于计算思辨哲学的新项目)。自2017年以来,我们一直在讨论合成语言的意义和方向。虽然我们不同意勒莫因的结论,但我们认为,批判性的对话忽略了未来几年可能引发的关于智能、感知和人机交互的重要讨论。
当“什么”变成“谁”时(反之亦然)
阅读勒莫因与LaMDA(一个对话式语言模型)的个人对话记录后,我们并不完全清楚谁展现了哪种智能。勒莫因向LaMDA提出了关于它自身情况、品质和能力、希望和恐惧、感受和推理能力以及对Google当前状况的看法。对话中有许多“跟随领导”(“follow the leader”)的元素。当然,也存在很多同理心和一厢情愿的表现,这也许正是真正的相互智慧(mutual intelligence)正在发生的地方。
聊天机器人的回应取决于先前的对话内容,从最初的文本提示开始,包括用于微调模型的“好”或“坏”交换示例(这些交换有助于特异性、敏感性、真实性和一致性等方面)。LaMDA 是一个完美的即兴创作者,每一次对话都是一次全新的即兴创作,它的“个性”主要来自于提示和对话本身。它不是任何人,而是它认为你希望它成为的任何人。
因此,第一个问题并不是人工智能是否具有类似哺乳动物内在主体性的体验(勒莫因似乎希望如此),而是要如何评价它能否准确表达他想要说的话。简单地得出勒莫万沉迷于“伊丽莎效应”的结论——将人格投射到预先编写的聊天机器人上——这种看法忽略了一个重要事实,即LaMDA并不仅仅是重复预先编写的响应,就像约瑟夫·魏岑鲍姆(Joseph Weizenbaum)于1966年的ELIZA程序一样。相反,LaMDA是根据对话的流程即时构建新的句子、倾向和态度。用户投射并不意味着没有不同类型的存在。
对于LaMDA来说,实现这一目标意味着它正在做一些非常棘手的事情:思维建模。它似乎对自己有足够的认识——不一定是主观思想,而是勒莫因思想中的一种建构。它可以做出相应的反应,从而放大了他对人格的拟人化投射。
这种自我与他人思想关系的建模是社交智力的基础。它推动了捕食者与猎物之间的互动,以及更复杂的对话和谈判。换句话说,可能存在某种真正的智能,不是像勒莫因断言的那样,而是人工智能如何根据勒莫因的想法来对自己进行建模。
一些神经科学家认为,意识的出现就是这种精确的思维建模的结果。普林斯顿大学神经科学和心理学教授迈克尔·格拉齐亚诺(Michael Graziano)认为,意识是思想进化的结果,它善于以同理心模仿其他思想,然后随着进化的时间,将这一过程转向自身。
因此,主观性是将自己的心灵客观化的经验,就好像它是另一个心灵一样。如果是这样,那么我们在不同实体(动物或机器)之间划清界限,做类似的事情就不那么明显了。一些人工智能批评家用鹦鹉来比喻非人类,它们无法真正思考,只能吐出东西来,尽管人们都知道这些鸟类的非凡头脑。
数亿年来,动物智力的进化与环境压力(主要由其他动物组成)有关。机器学习将进化过程加速到几天或几分钟,并且与自然界的进化不同,它服务于特定的设计目标。
然而,动物智力领域的研究人员长期以来一直认为,与其试图说服自己,根据学术定义,一种生物是否具有“智能”,不如更新我们的术语,以更好地符合它们所描述的现实世界现象。那么,在相当谨慎的情况下,这个原理可能适用于机器智能及其所有有趣的方式,因为它既像人类/动物智能,又不像人类/动物智能。
对于人工智能哲学来说,感知问题涉及人类智能如何让我们以其他不可能的方式塑造我们自己的思想。换句话说,一台无知觉的机器可以执行如此多与人类智慧密切相关的壮举,这很有趣,因为这对智慧是什么和不是什么有着深远的影响。
在人工智能哲学的历史中,从图灵测试到塞尔“中文房间”(Chinese room),语言表现一直扮演着关于人类与人工智能互动中感知存在与否的核心概念。今天仍然如此,并将继续如此。正如我们所见,聊天机器人和人工生成的文本变得越来越具有说服力。
或许更重要的是,自然语言处理的核心序列建模是实现通用人工智能模型的关键。这些模型可以灵活地执行各种任务,甚至是那些本质上不是语言任务的,如图像合成、药物发现和机器人技术。智能可能存在于人类和机器通信的模仿合成时刻,也存在于自然语言超越言语和书写并成为“认知基础设施”(cognitive infrastructure)的过程中。
什么是合成语言?
与隐喻相比,何时将合成语言称为“语言”才更准确?将光传感器的机器功能称为“视觉”是否太拟人化?视觉的定义应该包括所有光感受反应,甚至光合作用吗?在人工智能哲学的历史和技术实践中,人们对此有不同看法。
合成语言可以看作是一种特定类型的合成媒体。这还包括合成图像、视频、声音和角色,以及机器感知和机器人控制。多功能模型,比如DeepMind的Gato,可以从一种模式获取输入,并将其应用于另一种模式——例如,学习书面指令的含义,并将其应用于机器人,后者根据观察到的情况采取行动。
这种情况可能与人类的学习方式相似,但也有很大不同。目前,我们可以观察到人类和机器以不同的方式理解和使用语言。孩子们通过学习如何使用单词和句子来适应他们的物理和社会环境来培养语言能力。
对于合成语言,它通过一次性计算处理大量数据来学习。语言模型本质上是一种能力,但不确定是什么样的“理解”在起作用。人工智能研究人员和哲学家对这个问题有各种不同的观点——可能不存在真正的理解,或者存在一些,或者存在很多。不同的结论可能更多地取决于人们如何理解“理解”,这是个超越代码的问题。
这种“语言”是否符合从海德格尔(Heidegger)到乔姆斯基(Chomsky)的传统定义?也许不完全是这样,但目前还不清楚这意味着什么。约翰·塞尔(John Searle)和雅克·德里达(Jacques Derrida)之间的远距离辩论涉及语言理解、指称性、封闭性和功能等问题。
塞尔的著名“中文房间”思想实验旨在证明符号操作的功能能力并不等同于理解力。德里达对塞尔坚持意向性(intentionality)在语言中的首要地位的回应经历了许多曲折。这些回应表达了他们自己的论点。意图只能通过可用的符号术语来表达,而符号术语本身由其他术语定义。回顾法国理论与控制论的浪漫主义,以及对整个交际语言更“机械”的看法,可能对接受合成语言有所帮助,因为它在与自然语言的冲突和协调中演变。
语言种类繁多。有些语言只用于内部交流,与外部世界无关。例如鸟鸣、乐谱和数学符号,它们不直接指示现实世界中的事物。值得注意的是,软件本身也是一种语言,尽管它直到人类友好的编程语言出现后才被称为语言,需要通过编译或解释转换为机器代码。
基特勒(Friedrich Kittler)等人指出,代码既是一种可执行的语言,又是一种技术。它是语言,也是技术。换句话说,语言的“功能”不仅指它的符号操作能力,还指代码在现实世界中执行时所产生的功能和效果。符号的功能能力、理解以及物理世界的功能效果之间的界限混合在一起且相互关联,它们不完全相同,但又不完全分离。
过去,自然语言处理系统在使用Winograd算法时遇到了困难。比如,“保龄球无法放入手提箱,因为它太大了”这样的句子中,“它”指的是什么?是球还是箱子?尽管对于小孩子来说,这个问题可能微不足道,但对于传统或“老式人工智能”的语言模型来说,却是一个难题。困难在于,回答不仅需要理解语法,还需要根据现实世界中事物的属性来消除歧义/因此,语言模型被迫成为一切事物的模型。
大型语言模型在这一领域的进展迅速。令人惊讶的是,仅基于文本的大型模型在许多任务上表现出色,因为我们对语言的使用嵌入了许多相关的现实世界信息,尽管不总是可靠的。保龄球又大又硬又重,手提箱有限的空间里可以打开和关闭,等等。
结合多种输入和输出模态的通用模型(如视频、文本和机器人运动)似乎有望做得更好。例如,学习英语单词“bowling ball”,观看YouTube上的保龄球视频,并结合两者的训练,将使人工智能能够更好地推断事物在特定上下文中的含义。
这对于“理解”的品质意味着什么呢?通过1982年的“玛丽的房间”(Mary’s Room)思想实验,弗兰克·杰克逊(Frank Jackson)提出了一个问题。在这个实验中,科学家玛丽生活在一个完全单色的房间里,没有任何彩色物体。尽管她对“红色”这种光学现象有深入的科学了解,但她从未亲眼看到过红色的物体。但是,如果有一天玛丽离开房间,看到了红色的事物,她对“红色”的理解会发生显著的改变吗?
人工智能就像单色玛丽吗?“出狱”后,玛丽肯定会对“红色”有不同的认识(而且更好),但最终这种经历的范围总是会受到限制。一个人一生都在岸上度过,有一天却在湖里淹死了,他会以一种他从未想象过的方式体验“水”(深深地、发自内心地),因为它终止了他的呼吸,充满了他的肺部,引发了最深的恐惧,然后就是虚无。
这就是水。难道那些在岸边无助地看着的人不懂水吗?在某些方面,与溺水者相比,他们幸运地没有这样做,但在其他方面他们当然这样做了。人工智能是否“在岸上”,以某些方式理解世界,但不以其他方式理解世界?
合成语言,就像合成媒体一样,也越来越成为一种创意媒介(creative medium),最终可能以某种方式影响任何形式的个人创意。与许多人一样,我们都曾与大语言模型一起工作,让后者称为某种写作合作者。
2022年夏季,人们会记住那些日子,社交媒体充满了由DALL-E mini生成的图片。更准确地说,那是由数百万人使用该模型进行玩耍而生成的图片的时刻。在看到模型对有时荒谬的提示作出的反应时,人们的集体欣喜代表着一种真正的探索好奇心。这些图片被渲染并发布,没有特定的签名,除了标识它们的生成模型和人们用来生成这些图片的指令。
对于这些用户来说,他们的个人创作行为就像是进行实验,不断尝试着用不同的样本输入来观察模型的反应。即使输入和输出之间的关系有时候看起来有些不合逻辑,他们也在不断地尝试。正如LaMDA的对话记录显示,与这些模型进行的对话互动会产生各种各样的合成“个性”。同时,一些特别有创意的艺术家也利用人工智能模型来打造自己的合成人格,让它们变得开放且可复制,让用户可以像演奏乐器一样发挥他们的声音。人们不仅通过语言,而是通过语言模型来思考、交谈、写作、绘画和歌唱。
最后,理性表现(performance of reason)何时成为某种理性(reason)?随着像LaMDA这样的大型语言模型的出现,它们正在成为认知基础设施的一部分。现在我们面临着一个实际问题——何时才算是对“语言”的功能有了真正的理解?这关乎语义分析与现实世界中的事物相联系的语境。现在,确定这种“理解”的条件已经不再只是一种哲学思想实验。
如今,这些都是具有重大社会、经济和政治后果的实际问题。我们得出一个看似深刻的道理,适用于这些技术的许多不同领域和目的。在麦克卢汉(McLuhan)之后几代人的今天,我们说——模型即信息(the model is the message)。
平台规模合成语言的七个问题
关于合成语言的现实社会技术动态存在着无数令人关注的问题。有些问题已经被清晰定义,需要立即解决。另一些则是长期或假设性的问题,但值得思考,以便将当前时刻的状况映射到更广泛的范围之外。
然而,有些问题并不容易归入现有的分类,却对人工智能的哲学和认知基础设施的有效管理提出了严峻挑战。我们要为解决这些问题打下基础,这是我们的集体责任。我们应该在这些问题出现尚处于早期阶段,在仍有广泛方案可供选择时,着手解决这些问题。这些值得认真思考的问题包括以下七个方面。
想象一下,云端不只是有一个大型人工智能,而是遍布城市和世界各地的数十亿个小型人工智能芯片——它们是分离的、异质的,但仍然能够进行集体或联邦学习。它们更像是一个生态系统,而不是一个天网。
当以人类语言为基础的人工智能设备的数量超过实际人类数量时会发生什么?如果嵌入式机器通信的人工智能设备数量不只是人类数量的两倍,而是10:1?100:1?100,000:1?我们把这个问题称为“机器多数语言问题”(Machine Majority Language Problem)。
就像人类长期的人口爆炸和我们集体智慧的规模导致了指数级的创新一样,类似的创新扩展效应是否会在人工智能、或人工智能和人类融合的情况下发生?影响可能十分复杂。更令人担忧的是,随着这一比例的增加,人们利用这些认知基础设施来有意识地塑造世界的能力可能会减弱,因为人类语言在半自主地演变。
这个问题中嵌套着“衔尾蛇语言问题”(Ouroboros Language Problem)。当语言模型如此普及,以至于后续模型是基于其他模型先前输出的语言数据进行训练时,会发生什么?蛇吃着自己的尾巴,自我崩溃的反馈效应随之而来。
由此产生的模型可能会变得狭窄、混乱或同质化。偏见可能会逐渐被放大。结果可能会是一些完全难以预料的情况。我们应该怎么办?是否可能简单地标记合成输出,以便将它们排除在未来模型训练之外,或者至少进行区分?
相反,是否可能需要将人类生成的语言标记为特殊情况,就像密码水印技术被提出用于证明真实的照片和视频不是深度伪造一样?在未来,考虑到它们可能的混合性,是否仍然可能清楚地区分合成和人类生成的媒体?
勒莫恩的例子暗含了一个更广泛的问题,我们称之为“错觉模式识别问题”(Apophenia Problem,或译作“图形模式妄想症问题”)。错觉模式识别是指错误的模式识别。人们在云中看到脸孔,在火星上看到外星人遗迹。我们会在没有因果关系的情况下归因原因。例如,我们可能会想象,电视上提到我们名字的那个人正在直接跟我们说话。人类是模式识别的生物,因此错觉模式识别是内在的一部分。我们无法控制它。或许因此我们能够进行艺术活动。
在极端情况下,它可能表现为类似“影响机器”(Influencing Machine)的现象。这是精神病学中的一个主题,某人认为复杂的技术正在直接影响他们个人,而事实上并非如此。神秘体验可能与此有关,但对于体验者来说并不是这样的感受。我
们不反对那些用这种方式描述勒莫恩情况的人,特别是当他将LaMDA描述为“像”一个七、八岁的孩子时,但也有其他因素起作用。LaMDA正在以一种电视机、奇形怪状的云或火星表面无法做到的方式对用户进行建模。人工智能可能并不是你所想象的那样,但这并不意味着它不知道你是谁,也不会据此与你交流。
试图区分信念(belief)和现实(reality)总是很困难。例如,使用人工智能进行科学研究的重点在于它能够看到人类无法看到的模式。但是,确定它所看到的模式(或人们在其所看到的东西中看到的模式)是真实还是幻觉,这件事是可证伪的,尤其当涉及到不能进行实验测试的复杂现象时。
在这里,问题不在于人是否在想象人工智能作的事情,而在于人工智能是否在想象世界中的事情。问题在于,人类是否接受人工智能的结论,把人工智能的观察当作洞见(或噪音)。我们把这个问题称作“人工认识论信心问题”(Artificial Epistemology Confidence Problem)。
有人合理认为,应该明确禁止制造那些可以逼真模仿人类的人工智能,因为这会带来明显的伤害和危险。我们应该尽量避免未来出现大量的深度伪造视频、宣传骗局、心理操控等问题。
这些黑暗的可能性真实存在,但同样存在着许多同样奇怪且意见不一的“合成人类形式”。是的,人们会投入他们的激情到类似人类的事物中,无论是独自行动还是与他人一起,这种现象已经持续了几千年。
更普遍地说,增强智能的发展——人类智慧和机器智能的合作,就像司机和汽车、外科医生和手术刀一样,几乎肯定会产生外部辅助的结合体,还会将自我和客体、我和它的概念融为一体。我们把这个问题称作“模糊明确界限问题”(Fuzzy Bright Line Problem),并预见到这种模糊性会增加而不是减少。这并不是说问题会消失,而是会变得更加复杂。
这些问题不仅仅是现象学意义上的问题,还涉及到基础设施和地缘政治。对大型语言模型的主要批评是它们非常庞大,因此会出现一系列规模相关的问题。这些问题包括符号的同质性、能源密集型、集中化、普遍复制病态、锁定等。
我们认为,规模带来的净利益远远超过了与这些条件相关的成本,前提是它们作为扩展的一部分得到认真解决。从小型、手工策划的模型中选择,严肃地清除负面输入和输出,会带来不同的问题——“让我和我的朋友们为您策划一个小而正确的语言模型”。
然而,对于大型模型来说,语言的所有混乱都被包含在内。批评者正确指出,数据来源狭窄(从维基百科、Reddit等抓取),这说得完全正确,他们说,这与真实语言的广泛范围差距很大,而这种方法不可避免地导致了文化的局限性。我们称之为“可用性偏差问题”(Availability Bias Problem),这是任何有价值的合成语言发展的首要关注点。
“大型”模型中包含的人类语言(口头和书面)远远不够,更不用说非人类语言。社交媒体内容过滤这样的任务,是当下迫切关注的问题。而且,在所需规模上,人类无法自己完成,也不能有效地由未经培训、不会广泛识别人类表达形式的人工智能完成。我们说“把一切都包括进去”,这意味着大型模型将变得更加庞大。
最后,训练最大语言模型所消耗的能源和碳排放相当大,尽管一些广为流传的估算夸大了这一情况。就像对任何重要技术一样,量化和追踪人工智能的碳排放和污染成本非常重要。这是“碳消耗问题”(Carbon Appetite Problem)。截止目前,解决这个问题的成本仍然远远低于视频梗分享的成本,更别提加密货币所依赖的铺张浪费的计算了。然而,提高人工智能计算的时间和能源效率可能是当今计算硬件和编译器创新中最活跃的领域之一。
这个行业正在重新思考在过去大半个世纪中主要由优化经典串行程序而不是并行神经计算所主导的基本基础设施。从能量上来说,“底部还有很多空间”,并且继续优化神经计算具有很大的激励。此外,无论是经典计算还是神经计算,大部分能量成本都涉及数据的移动。随着神经计算变得更加高效,它将能够更接近数据,从而大大减少了移动数据的需求,并产生了复合的收益。
还要记住,一个无监督的(unsupervised)大型模型,如果“包罗万象”,完全通用,原则上就能够执行任何人工智能任务。因此,所需的“基础模型”总数可能相当少。据推测,每个模型只需要少量持续的训练即可保持更新。
人工智能现在不是我们想象的那样,也不会是我们现在想象的那样
在斯坦尼斯拉夫·莱姆(Stanislaw Lem)最富有哲学意味的小说之一《Golem XIV》中,他描述了一个人工智能,它拒绝参与军事应用和其他自我毁灭的措施,而是对世界的奇迹和自然感兴趣。鉴于当今的全球规模计算和人工智能通常被用于琐碎、愚蠢和破坏性的事情,这样的转变是受欢迎和必要的。首先,目前人们甚至不清楚这些技术究竟是什么,更不用说它们可能用于什么目的了。这种混乱很容易导致滥用,经济体系也会激励愚蠢行为。
尽管进展不平衡,但人工智能的哲学及其在人工智能技术的发展中的曲折路径本身对于这种改革和重新定位至关重要。现在的人工智能并不是预测中的样子。它不是超理性和井然有序的东西,而是混乱而模糊的样子。在中长期的未来,人工智能很可能不会是现在的样子,也不会是我们现在认为的那样。就像莱姆故事中的人工智能那样,它的最终形态和价值可能仍然大部分尚未被发现。
对于人工智能和人工智能哲学来说,一个明显而现实的危险是将当前情况固化下来,据此捍卫立场,从而设下一个陷阱——我们称之为过早本体化(premature ontologization)。这意味着以为某项技术最初、当前或者最显著的用途就代表了它未来的目标和影响。
有时,对当前人工智能的激烈批评不仅是基于实证事实,而是成为了本体论信念。批评的焦点从“人工智能能够做到这一点”转移到了“人工智能就是这样”。为了不让他们所关心的社群丧失焦点,有些人可能会排斥或者否定其他构成“现在的人工智能”的现实,比如药物建模、天文学想象、实验性艺术和写作、充满活力的哲学辩论、语音合成、语言翻译、机器人技术、基因组建模等。
有些人认为这些事物只是分散注意力的东西,甚至觉得它们根本不真实。他们认为提出最直接的问题不能完全覆盖严肃关切的范围,也因为道德立场而拒绝这种政治立场。这种观点在两个方面都是错误的。
我们和最认真的人工智能批评者分享了许多共同关切。在大多数情况下,我们认为“伦理学”讨论远远不足以解决认知基础设施的最基本的短期和长期影响,更不用说识别它们。同时,这也是为什么机器智能的思辨哲学(speculative philosophy)对于确定当前和未来的方向至关重要。
一位知名的人工智能批评者曾表示:“我不想谈论有感情的机器人,因为在各个极端上都有人类伤害其他人类。”我们对此有不同的看法。我们确实希望谈论有感情的机器人、语言和智能,因为在人类相互伤害的同时,也有人类和机器在做一些令人瞩目的事情,改变着人类对思维的看法。
现实超越了舒适词汇的限制,这只是对话的开始,而不是结束。与其不断争论机器是否有灵魂或能否像人类想象中那样思考,我们认为人工智能和人工智能哲学之间持续的双螺旋关系需要更少地陷入自己的准则,而是基于我们面前的奇怪现象构建更加细致、复杂的分析、批评和思辨的词汇。