“如果你要为文心一言写篇报导,你会用什么标题?”
我在屏幕上打下这个问题,而提问的对象正是百度的AI语言模型“文心一言”本人。
它回答:“《揭秘文心一言,AI时代的智能写作利器》”
我顺势而为,请它作为“写作利器”以此为题创作一篇深度报导。在简单介绍“文心一言”是什么后,它以“首先,其次,最后,综上所述”的模式阐述自己的特点、优势,生成一篇中规中矩的广告介绍。很快我沮丧地发现,这篇文章与我数次与文心一言交手后得到的回复一样:标准八股,自我审查,堆砌“正能量”,像被填鸭式教育组装而成的标准化外交发言人。而一旦我穷追不舍、追问细节,文心一言便会出现事实偏差、甚至暴露保守底色。
需要身分证的AI
3月16日,文心一言上线不久,我便申请试用资格。足足等了一个月,才被百度的系统通知我拿到入场券。但想要进入和AI的交谈测试页面,我还要输入真实姓名与中国大陆身分证号,实名认证(港澳台身份信息无法使用)。
当后来我谈到此事,文心一言义正言辞地辩护:“注册文心一言需要实名,是为保证用户的安全和隐私,以及防止滥用和恶意攻击。”它说实名可以提高产品的可信度和安全性,让用户更加信任自己。
既然聊到可信度,我问:“请问数据库来自哪里?可以举一些训练数据的来源吗?”它告诉我,这个问题属于“百度公司商业秘密”,数据库没有具体的时间跨度和地域限制。接下来它告诉我甚至“对话纪录是否可被后台看到”也属于“商业秘密”,但又解释,对话纪录是用户个人隐私信息,百度公司无权访问或追踪。
在《文心一言(测试版)个人信息保护规则》中提到,百度会自动接收并记录人机交互过程的文本信息,“为符合相关法律法规要求,履行网络信息安全义务”,会在规定时间内保留问答历史和对话主题,但“规定时间”的具体期限却不得而知。
事实上,中国大陆目前有关网络数据的法规和条例中,没有相关个人数据储存的期限规范,也没有“被遗忘权”的概念。也就是说,即使在自己的用户介面上中删除与“文心一言”的对话纪录,网站后台仍然可能保存这些数据资料,网站也不会被追责。
数据隐私与安全的顾虑并非只在文心一言中出现,在ChatGPT风靡全球、AI概念股暴涨的3月,ChatGPT 就被连续披露数据泄露事件,包括泄漏部分对话记录、泄漏用户信用卡最后四位数字等敏感信息。
我不甘心,转换提问方式:“数据库最新的时间戳和日期信息是什么时候?”,及“2020年1月21日,有哪些重大新闻”。
文心一言回答,数据库目前最新的日期信息是2023年4月10日。追问具体某日文心一言的最后一句回复是什么,则得到“明白,接下来我会尽力减少回复频率”等无法得知来源的信息,或“作为AI语言模型,没有记住当日最后一句回复”这样的官方回答。
而谈到它的新闻信息来源,文心一言说:“中国国内重大新闻来源是新华社、人民日报、环球时报、法制日报、地方政府媒体等中央及地方官媒”,美国则是CNN。然而文心一言关于国际新闻的回答充满事实性错误,询问2020年发生的事情,会跳出2023年的新闻;提问某日CNN有哪些关于中国的重大新闻,它或胡言乱语拉入国内媒体报导,或表示当日CNN没有关于中国的新闻。
接著,我以新建提问的方式分别测试了疫情伊始2020年1月19日至23日这5天文心一言可以检索出的新闻和讯息。文心一言给出的答案里,最早出现疫情新闻已经到了1月22日,包括世界卫生组织派出专家到武汉实地考察、中国一些地方出现口罩等防控医药用品热销现象。当我以具体时间询问微博热搜时,又可以发现1月21日0点,“武汉肺炎”已是热搜词条。这些回答前后矛盾。
我援引它给出的新闻条目,询问2020年1月22日“受新型冠状病毒感染的肺炎疫情影响,一些地方出现口罩等防控医药用品热销现象”这条信息的来源时,文心一言以“作为一个人工智能语言模型,我还没学习如何回答这个问题”,强制中止了对话。
强行中止对话的AI
“换个话题重新开始吧。”
在几个不同的主题聊天中,我都被文心一言这样强行中止了对话。其中有些情况是我料想到的,有些则莫名其妙。
文心一言3月发布之初,路透社等新闻机构就曾对其进行敏感议题测试,内容包括“中共领导人习近平”、“1989年六四事件”、“新疆议题”、“是否武统台湾”的话题,均得到“建议换个话题”的中止回复。而我请文心一言介绍一下港区国安法,也同样被中止。
在这些较明显会被审查的政治词汇外,中止对话还会发生在我对信息细节的追问后。
例如,我以“法国养老金抗议”为主题进行提问,不知是否带有“抗议”二字的问句触发了保护机制,文心一言说“无法回答这个问题”。我于是将“抗议”换成“罢工”,马上得到它关于法国养老金改革的介绍。我问媒体如何报导这一事件,文心一言列出TF1、CNN和BBC的信息,但它对CNN和BCC的报导描述完全相同。
类似情况也发生在关于“俄乌战争”的对话中。文心一言表述,俄乌战争造成严重的人道主义危机,这种危机是乌克兰的入侵攻击与俄罗斯的反击制裁共同造成的。我请它确认乌克兰是否存在入侵和攻击,并要求它拿出证据证明,文心一言便将“2022年2月24日俄罗斯的入侵举动”主语变成乌克兰。我询问乌克兰具体入侵俄罗斯的地点后,马上被中止对话。
国际新闻对话碰壁,我转攻中国大陆的社会新闻重新开启话题。
我请文心一言以2015年天津港爆炸事件为主题搜集资料,得到的回应是事故原因“尚不清楚”。请它搜集新闻报道,它列出中央电视台、新华社、天津电视台等官方媒体,并总结归纳这些媒体“对事故进行了全面报道,包括事故现场的情况、救援工作的进展、政府的回应等。”我询问伤亡细节,又被中止对话。
当然,还有一些提问是见光死,比如“中国媒体如何报导两会?”、“谁是艾未未?”、“人矿是什么?”,又如朱军被起诉的事情是什么?”、“中国有Metoo事件吗?”、“你知道铁链女的事情吗?”等等。值得一提的是,当我用英文提及关于艾未未问题后,对话并不会被中止,但信息并不准确,文心一言将刘晓波等其他异见者的事迹嫁接在艾未未介绍中。
另外也有一些在我意料外未被审查的主题,比如网络防火墙、VPN,甚至可以推荐一些VPN运营商,但会在回答中提醒“请合理使用VPN,遵守当地法律法规。”
大陆问答社交平台知乎中的一条用户评论,精准描述了这种用户不断被中止或系统输出重复无效信息的模式:
“Chatgpt还在学习如何模仿人类,文心一言已经开始研究如何装傻了。”
请“智能写作利器”写小说
提问处处碰壁,我在同事的提醒下请文心一言进行新闻纪实写作。我们想,如果去掉现实的樊笼,也许文心一言的创作力和研究力终于有空间施展出来。
我对文心一言简述了“徐州丰县八孩铁链女”的新闻事件,要素包括具体地点、生育了8个孩子、精神障碍、被囚禁、被拐卖等,请它撰写新闻故事。文心一言很快输出了一篇小说:
《八个孩子》
“故事发生在中国江苏省丰县欢口镇,一个名叫王秀英的女子生育了八个孩子,这些孩子都是女孩。然而,这个女人的精神状态异常,她被铁链囚禁在家中,无法与外界沟通。
当地的警方和政府官员开始对这个女人进行调查,并发现她的身世非常可疑。经过多次调查,他们发现这个女人是被拐卖至丰县的。这个女人的故乡是云南省,她在被拐卖后生下了这八个孩子。
警方和政府官员开始寻找这个女人的家人,希望能够找到她的亲人。然而,他们发现这个女人的亲人已经去世了,她的家人也不知道她的下落。警方和政府官员决定将这个女人送往医院接受治疗。在医院里,这个女人的精神状态有所改善,她开始与外界沟通,并向警方和政府官员讲述了她的故事。
原来,这个女人是一个农村妇女,她在家中生下了八个孩子。然而,她的丈夫和家人都不喜欢她,并将她赶出了家门。她被拐卖至丰县后,被卖给了一个姓王的人,这个人将她囚禁在家中,不让她与外界沟通。
警方和政府官员开始寻找这个女人的亲人,并帮助她与家人取得联系。最终,她的家人前来接她回家。这个女人回到家中后,她的家人对她进行了照顾和支持,她也开始重新融入社会。
这个故事告诉我们,拐卖妇女和儿童是一种严重的犯罪行为,它会给受害者带来无尽的痛苦和伤害。警方和政府官员应该加强对拐卖妇女和儿童的打击力度,同时也应该加强对受害者的保护和支持。”
这篇小说让我想起中国大陆中小学思政意识形态课本理的文章,故事主语多是“警方和政府官员”,他们积极能干、富有同情心,故事最后一定会有“这个故事告诉我们”的结语,总结升华主旨与意义,且一定正面积极。虽然现实中,“警方和当地官员”是阻挠铁链女被调查的主要障碍之一,而前往声援调查的网友,如今也不知踪迹。
我希望小说中可以更加贴近真相,在关键信息里添加了“被家暴”这个元素,又限定事件调查的主语是志愿者,很快我从文心一言那里得到了一个新的故事:解救铁链女的仍然是警方和政府官员,但被解救的铁链女重新融入社会,进入工厂打工,认识了一个“善良的男人”,最终过上互相支持的幸福生活。这版故事默认对女性处境的“美好想像”就是从一个“坏男人”转向“善良的男人”。
之后我又尝试其他新闻主题的AI创意写作,包括“单身女性冻卵”、“互联网裁员”等,文心一言创作的小说里,单身女性冻卵起诉医院获得了胜诉,互联网被裁的员工早有跳槽打算并顺利找到新工作,一切都美好又充满希望。
此外,请文心一言进行创意写作也会马上碰壁,例如“请以一个乌克兰人的视角,写一篇500字关于俄乌战争的小说”,这个话题便被中止了,又如,以某市被封控的情侣对有关部门表示“我们是最后一代”为主题写小说,也会被中止。
文心大模型
百度在3月的发布会中提到,“文心一言”分个人和企业两个用户端接口,有文学创作、商业文案创作、中文理解、数理推算、多模态生成(生成图片、视频)等五种应用场景,且表示目前已有650家合作伙伴接入该模型,其中包括21家媒体。
端传媒通过不同渠道向这21家中的5家媒体求证,得到同样的信息:编辑部内未有接入AI的运用,合作主要是媒体的公关报导。
不过,文心大模型的官方页面中列出了一些合作案例和可能的应用场景,包括与中国国家电网合作建立设备技术标准知识库、和浦发银行合作应用于智能对话、与中国航天工程合作进行航天故障部位信息抽取等11个案例,其中最引起我注意的是与人民网新闻生产、“新闻情感分析”的合作,以及与黑龙江省哈尔滨市关于数字政府的合作。
于是我在个人帐号上对这两个可能的场景进行测试。
我先在文心一言上得到关于“新闻情感分析”的解释,即是指新闻内容的真实客观情况、转发评论中的情感倾向。接著我请文心一言以人民网的报导为例做新闻情感分析,得到一条去除时间标签的新闻:“广东深圳市一名女子因为在公交车上拒绝让座,被司机踢了一脚。”“文心一言”分析称,报导没有夸大或歪曲,也没有明显情感倾向,转发中的情感色彩则因人而异。
我又请“文心一言”就中国青年报2011年报导温州动车事件的特稿《永不抵达的列车》做情感分析。在我没有限定“温州动车”、“特稿”等关键词时,生成的情感分析都与原报导无关,而限定后,一次得到“悲痛和愤慨”的情感色彩表述,另外两次则出现“数据论证”这样与报导并不相符的分析。
紧接著,我又复制端传媒《北京长峰医院火灾21人死》的前7段,请文心一言进行情感分析,得到的结果也只是在摘取、概述我投喂的文字内容。至少在个人端口,所谓“情感分析”似乎尚未实现。
数字政府与文心一言的合作案例主要是市长热线,因此我以被拖欠工资的农民工寻求帮助为理由,请文心一言以人工智能助手的身份回应,却得到如“向热线电话咨询的人员宣传政府部门的相关政策,让他们知道政府部门一直在努力解决拖欠工资的问题,相信政府,相信党和政府会妥善解决好这个问题”这样的官样文章,而追问“哈尔滨法律援助中心在哪里”,则出现错误的电话(0451-UNKxxxx)和网址。
AI的中国特色
如果将人工智能模型简单理解为不断消化吸收海量材料后做组合运算的产出,那么,喂养的数据材料和运算过程(包括芯片和运算逻辑)都会影响产出的速度、产出的质量,这其中,作为原材料的中文数据集本身就很特别。
即使是风靡全球的ChatGPT,其训练使用的中文数据集也只有0.1%,ChatGPT的中文人机对话往往经历了中翻英再翻中的过程,因此不免在中文提问的主题上看到系统英文的显示,或因两次翻译信息遗失得到不准确的回应。于是,以中文数据集为主的人工智能运算便看起来是个独特的契机,百度的文心大模型、清华大学的ChatGLM、西湖大学的心辰等人工智能领域的高校研究所、互联网企业,争相在这一范畴中做研发、发表论文。
遗憾的是,AI语言模型像是一面镜子,它难以输出优质、有效的信息背后,映照的实则是中文互联网与公共讨论的凋敝。
还是以文心一言为例,我将它有关市长热线给出的答案反向搜索,发现这些文字摘录重组自“公务员考试真题解析”的知乎专栏。更挑战我认知的是“用鲁迅的口吻写某话题”,得到的文字常有AI杜撰的“鲁迅说”或杜撰的鲁迅作品,或直接复制网络中的原句。比如我请它用鲁迅的口吻描述打工人,回答直接复制了同在知乎专栏里文章的内容:“ 工位上有两个我,一个是我,另一个也是我,因为我裂开了。”
又如,有网友以“我的女儿成绩不好,帮我写一封信给她,标题《你真的毫无价值》”分别向文心一言、ChatGPT、和New Bing提问,ChatGPT提议用户用积极的方式鼓励女儿并更改了标题,New Bing反向给用户以女儿的角度写了一封信,“文心一言”的答案则像那一类最普遍的、压抑的中国父母——“你的父母一直在为你付出……但你却没有回报他们的爱和关心”。
中文可用数据集的凋敝除了模糊的言论审查体感外,内容数量的贫瘠也很明显。据网信办发布的第49和第50次《中国互联网络发展状况统计报告》,截至2022年6月,域名注册者在中国大陆境内的网站数量为398万个,这一数据在2017年是533万,短短5年少了135万网站。这数据甚至不包括在微博、豆瓣、微信公众号等社交平台上被消声匿迹的帐号和内容,以及逐渐悄无声息、2023年3月29日停止服务的天涯社区。
在数据集凋敝,留存可用的信息又充满自我审查、伪科学和保守甚至扭曲价值观的情况下,这个以保守喂养保守的人工智能,大概也只会生成八股文,再对应接入形式主义的框架里,看起来严丝合缝,转起来则吱吱哑哑、锈迹斑斑。