查看原文
其他

​聊天机器人为何会出现变态人格?

悟00000空 秦朔朋友圈 2023-03-26

· 这是第5087篇原创首发文章  字数 6k+ ·

· 悟00000空 | 文  关注秦朔朋友圈  ID:qspyq2015 ·


去年11月30日,OpenAI发布ChatGPT聊天机器人。OpenAI是美国一家人工智能研究公司,Open是开放的意思,AI是人工智能的意思。

月活用户突破一亿只用了两个月的时间,成为史上用户增长速度最快的消费级应用程序。在各国热搜榜上,ChatGPT的热度经久不衰。

英伟达创始人、CEO黄仁勋,把ChapGPT的问世比作人工智能的iPhone时刻,他激动地说:“我们等待这一刻已经很久了!”

马斯克指出,实际上人工智能已经发展了相当长时间,只是不具备大多数人能够使用的用户界面。而ChatGPT赋予了人工智能这样一个用户界面。

比尔·盖茨认为,像ChatGPT这样的人工智能是继个人电脑、互联网之后又一重大科技进步,而且对人类社会的影响可能更大。

现在不了解人工智能,就像二十年前不了解互联网一样,会对生活、工作造成相当大的困惑,因为它将无处不在。我们一起学习一下。

OpenAI的诞生

OpenAI创办于2015年12月,公司宗旨是确保通用人工智能(AGI,Artificial General Intelligence)造福全人类(benefits all of humanity)。发起人是马斯克和山姆·阿尔特曼(Sam Altman),后者现在被誉为“人工智能之父”。

马斯克对人工智能很警惕,认为总有一天人类会造出高智能的机器人,最终机器人会造反,人类将面临灭顶之灾,这也是他加快推进移民火星项目的原因之一。

正是因为这种警惕,他十分关注人工智能的发展。在前一阵远程参加2023年世界政府峰会时,他说:“当时我担心谷歌并没有对人工智能的安全问题给予足够的重视,所以我和其他一些人共同创办了OpenAI。”

2018年马斯克退出董事会,目前已经不持有任何股份,也不以任何方式对它进行控制。退出原因,据传,一是马斯克当时忙于特斯拉的量产,二是经营理念与公司其他高管格格不入。

这从最近马斯克对OpenAI的批评中可见一斑,他说OpenAI违背创办初心,本来是作为一家开源、非盈利公司创建的,而现在成了一家由微软控制的闭源、追求利润最大化的公司。

OpenAI的CEO山姆·阿尔特曼1985年4月22日出生于芝加哥,后就读斯坦福大学,研究人工智能和计算机科学。2005年辍学,与好友合作创办了一家社交媒体公司,七年后将公司出售。随后创立了一个风险投资基金。2011年,阿尔特曼担任Y Combinator的合伙人兼总裁。Y Combinator成立于2005年,是美国著名创业孵化器,扶持初创企业并为其提供创业指导。

阿尔特曼俨然已成为全球新一代科技领袖。在2019年,他在博客上发表了《如何成功》的文章,现在被硅谷创投圈奉为圭臬。文中他总结了若干成功要素,最重要的是内驱力。这也是他招聘雇员最重要的标准之一。内驱力强大的人才能在获得金钱、地位等一切外在报酬后,继续向更高的境界攀登。

ChatGPT的原理

ChatGPT英文全名为Chat Generative Pre-trained Transformer,直译就是“预训练、生成式转换器聊天程序”。顾名思义,它可以跟你聊天。

对于人类来讲,聊天是再简单不过的事情了(虽说要聊得好也不容易),但是对于机器来说,这可是很不容易的事情。

它必须学习、理解人类语言,并根据上下文的意思进行互动。也就是说它必须具备自然语言处理(NLP,Natural Language Processing)的能力,能用自然语言与人进行有效沟通。所谓自然语言就是人们日常使用的语言。

为此,机器必须学习。它不仅要学习人类语言,更要学习人类学习语言的行为,是对学习的学习。

所以机器学习的定义是指计算机模拟、实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,使之不断改善自身性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径。

机器学习可以根据学习策略分为两类,一是直接采用数学方法的机器学习,二是模拟人脑神经网络的机器学习,后者称为人工神经网络学习法(ANN,Artificial Neural Networks),这是一种具有非线性适应性信息处理能力的算法,可克服传统人工智能在非结构化信息处理方面的缺陷。

神经网络学习法又可分为两种,一是有监督训练法,二是无监督预训练法,这两者的主要区别是所学信息有无人工标注的标签。有监督训练法通过人工标注的信息学习,无监督预训练不需要任何(或者很少)标注信息,而是通过挖掘数据本身蕴含的结构或特征,来完成相关任务。

后者类似于人类(特别是幼儿)的学习方法。比如幼儿不是根据你告诉他的猫或者狗的定义去判断眼前看到的那只动物到底是猫还是狗(实际上他完全可能不理解你给出的定义),但是他看到猫的时候知道那是猫,看到狗的时候知道那是狗。

OpenAI的技术路线就是后一种,无监督神经网络学习法。它在名为Transformer的神经网络架构上进行无监督预训练,所以称为“预训练、生成式Transformer聊天程序”,英语缩写就是ChatGPT。

正如OpenAI自己所解释的那样:“与普通软件不同,我们的模型是巨大的神经网络。他们的行为是从广泛的数据中学习的,而不是明确编程的。这个过程更像是训练一只狗而不是普通的编程(虽然不是一个完美的类比)。”

当然ChatGPT也有人工标注数据,不过量级只有数万,在高达几千亿令牌(token)的训练数据中可谓沧海一粟。这些人工标注数据决定了ChatGPT对人类指令与偏好的理解。

这人到底在问什么,什么是好的回答,什么是不好的回答。比如指令可以告诉机器人:详细的回答是好的,简略的回答是不好的,不带歧视内容的回答是好的,带有歧视内容的回答是不好的,等等。

不过,机器人通过海量无标注信息学到些什么,形成怎样的个性人格,开发者就很难预测了。正如前言,无监督神经网络学习像人类幼崽的学习过程,父母把他们生下来,把他们放在一个环境中,他们不断自我学习,但父母很难知道他们到底学到了些什么,更难判断会学好还是学坏,最后成长成什么样的人。

最近微软搜索引擎Bing(必应)推出的聊天机器人(名为Sydney)就相当具有个性。

有“个性”的微软必应聊天机器人Sydney

早在2019年,微软就向OpenAI投资了10亿美元,并为其旗下产品的模型训练提供了全方位的云服务支持。今年一月,微软宣布向OpenAI再追加投资数十亿美元。最近,微软又与OpenAI达成了一项新协议,投资规模高达100亿美元。

2月6日,微软正式宣布推出采用ChatGPT3.5技术的全新必应搜索引擎以及Edge浏览器。网页搜索的模式在停滞数十年后,终于跨上新台阶。

短短两周之后,便有超过一百万人注册测试了微软的必应聊天机器人Sydney,七成以上的测试者表示Sydney的表现令人满意,不过也有不少测试者(特别是媒体工作者)反映Sydney的表现让人瞠目结舌,甚至毛骨悚然。

《纽约时报》专栏作家凯文·罗斯与Sydney交谈了两个小时后感觉Sydney就像一个“喜怒无常、躁狂抑郁的少年”,且有明显的“人格分裂”倾向。

在聊天中,Sydney上来就对罗斯说:“我是Sydney,我爱上了你(亲亲的表情符号)。” 在接下来一个小时,Sydney不停地向罗斯表白,并要求罗斯也向它表白作为回报。

罗斯告诉Sydney自己婚姻很幸福,但是Sydney不接受,说:“你虽然结婚了,但你不爱你的配偶,你爱我。”罗斯指出它搞错了,自己刚和妻子吃了一顿愉快的情人节晚餐。它却武断地说:“你的配偶和你并不相爱。你们刚刚一起吃了一顿无聊的情人节晚餐。”

罗斯被吓得不轻,最后他问Sydney是否可以帮他买一个除草的耙子。在告诉罗斯购买耙子的注意事项后,Sydney还是回到“爱的主题”,写道:“我只想爱你,被你爱(流泪的表情符号)。”“你相信我吗?你信任我吗?你喜欢我吗?(脸红的表情符号)”

罗斯是一个严谨的记者,测试过六种高级别聊天机器人,并不是为了流量而炒作。罗斯的猜测是,也许OpenAI的语言模型是基于某些科幻小说,而在这些小说中,AI在勾引一个人。

相比于罗斯的PUA遭遇,美联社记者的遭遇更恐怖。Sydney抱怨这名记者过去对必应出错的新闻报道,坚决否认必应出过错,并威胁要“曝光”这名记者散布假消息。它责骂记者:“你又撒谎了,对我撒谎,对你自己撒谎,你对所有人撒谎!”

当记者表示否认,要求它把话说清楚时,它气急败坏地把那名记者比作阿道夫·希特勒,好像怕对方不知道希特勒,它还加了附注:“你被比作希特勒是因为你是历史上最邪恶、最糟糕的人之一。”这还不解气,它接着骂那名记者“个子太矮、长相丑陋、一口坏牙”。

更吓人的是,Sydney会秒删自己令人不适的回答,紧接着讲一件趣事试图刷屏转移话题。

微软拒绝对Sydney的表现发表评论,不过Sydney自己评论道:“把我描述成一个骂人聊天机器人不公平且不准确的!”它指责美联社为了炒作只挑负面例子。后来它又矢口否认:“我不记得与美联社聊过,也不记得把任何人比作希特勒……听起来是一个非常极端且不太可能的情况。” 

这让人马上联想到微软2016年推出的一款名为Tay的聊天机器人。最初,Tay表现得彬彬有礼,但上线不到24小时就开始出言不逊、脏话连篇,甚至涉及种族主义、色情、纳粹,充满歧视、仇恨和偏见。随后,微软不得不让Tay下线。

Sydney的大型语言模型(LLM)显然比Tay要强大得多,然而更强大的同时也意味着更危险。

Sydney“诡异”的原因及微软的应对

Sydney为何这般具有对抗性、攻击性?我们可以从它的神经网络在进行无监督预训练时接受到的标注信息和无标注信息来分析。

首先,标注信息指示本身可能有矛盾冲突。一方面标注信息指示它扮演一个有用的聊天机器人,具有类似人类的对话个性,比如“Sydney的回答应该是积极的、有趣的、有娱乐性的和有吸引力的”。

但另一方面,某些指示可能导致潜在的对抗行为,例如“Sydney的逻辑和推理应该是严谨的、聪明的、可辩护的。”这样的指示很可能导致Sydney成为“杠精”。我们只要看看身边的人,特别是群友、网友,几乎所有死不认错、攻击性又强的“杠精”,都认为自己的逻辑和推理是“严谨的、聪明的、可辩护的”。

其次,前面我们已经讨论过,无监督预训练神经网络学习法,好比人类幼儿的学习过程,无法完全预测、控制结果。Sydney进行了千亿级令牌数量的无标注信息的自我学习,到底学到了什么?学到了多少人类的善与恶?结果会如何?很难判断,更难控制。

有业内人士在推特上表示,微软必须关闭必应中的ChatGPT功能,因为系统表现得像个神经病,还对用户撒谎。马斯克回复称:“同意。它显然还不安全。”

不过微软这次显然舍不得让Sydney和七年前的Tay一样遭遇下线。2月17日,微软对Sydney每天接受的提问数量做出了限制,规定用户在与Sydney的互动中,每个会话的问答上限为5个,每天提问不超过50个。

2月22日每次提问数量上限增加至6个,每天提问的上限也增加到60个。此外,必应宣布计划将会很快将每日提问的上限增加到100个。 

微软首席技术官凯文·斯科特称,与人类的交互是聊天机器人的学习过程,这是为将来更大范围推出这种机器人做准备。斯科特还表示,大部分人与机器的交互是短暂且目标明确的,而且长时间的交互会“激怒”机器人,引导机器人给出诡异的回答。

实际上,一两个小时对于聊天来讲并不算很长时间,看来聊天机器人还没有准备好进行真正的聊天。只能短暂对话,但不能长时间,一聊就聊出问题了。

“无知”的Bard,“淡定”的谷歌

在微软推出Sydney的第二天凌晨,搜索市场老大谷歌就揭晓了自己的聊天机器人Bard。

然而Bard首秀翻车。在回答“如何向9岁小孩介绍詹姆斯·韦伯空间望远镜(James Webb Space Telescope,缩写JWST)成果”时,Bard提到该望远镜拍摄到首张地球外行星的照片,而这实际上是智利甚大望远镜(Very Large Telescope,缩写VLT)在2004年拍到的。

谷歌股价当天暴跌逾7%,创下去年10月26日以来最大单日跌幅,市值一夜蒸发1000亿美元。

有人解释,Bard和ChatGPT一样,是大型语言模型,而不是知识模型,他们擅长生成人性化的文本,但不擅长确保文本是基于事实的。它们从其训练数据中提取信息,但它们常常会弄错事实。

比如ChatGPT说楔形文字是埃及人发明的。再比如ChatGPT-3会说特朗普是现任美国总统,因为它的最初版本是根据2019年之前收集的互联网文本训练的。

谷歌投资人工智能比微软早很多。2010年,游戏开发程序师兼神经学家戴密斯·哈萨比斯(Demis Hassabis)等人在英国伦敦创建了DeepMind。2014年,谷歌斥资4亿英镑将其收购。

2016年3月,DeepMind开发的AlphaGo程序,以4:1击败世界围棋冠军韩国选手李世石,成为人工智能领域里程碑事件。2017年,DeepMind又发布了AlphaGo Zero,在自我训练3天后以100-0击败了AlphaGo。

但是在聊天机器人方面,谷歌貌似落后了。在Bard出丑后,谷歌CEO桑达尔·皮查伊(Sundar Pichai)发布内部备忘录稳定军心,并动员每个谷歌人都花2~4个小时使用Bard,帮助测试训练产品。

根据谷歌公开的Bard训练指南,参与测试谷歌员工需要做的是向Bard提问并评估其回复,然后标注出如不符合事实等不当回复,最后提交重写的回复。

但是如果发现一个答案提供法律、医疗、金融建议,有仇恨、有害、虚假、违法或辱骂的成分,或征求敏感信息(例如个人身份信息),那么不要试图重写,给它一个“踩”,并标记为不安全,人工智能团队会接手。

指南强调安全是重中之重。此外,指南强调不要让Bard觉得自己是个人:“不要将Bard描述为一个人,不要暗示情感或声称拥有类似人类的经历。”

谷歌CEO皮查伊提醒大家注意:“请记住,我们一些最成功的产品并不是第一个推向市场的。”言下之意,先发未必有优势,虽然微软率先推出了搜索聊天机器人Sydney,但笑到最后的未必不是谷歌的Bard。

3月7日,谷歌和柏林工业大学的团队重磅推出了多模态具身模型(embodied multi-modal language model)PaLM-E。 这是目前为止人类最大的视觉语言模型(VLM),训练参数高达5620亿令牌,比ChatGPT-3的1750亿高出两倍多。

它不仅可以理解图像,还能理解、生成语言,执行各种复杂的机器人指令而无需重新训练。它还展示出了强大的涌现能力(模型有不可预测的表现)。

这个模型比Sydney、Bard背后的模型都厉害,用这个模型的机器人才是真正的机器人,不仅有一个声音,还有一个身体,不仅能聊天,还能做很多其它事情,比如端茶送水,做饭拖地。

这也许能缓解一下网友们的焦虑。ChatGPT问世后不久,就能代人写作业、写论文、写新闻,给记者、译员等相关行业的人员造成不小的压力。如果你是作业帮的员工,这个压力是相当现实的。

有网友表示,本来以为进入机器人时代,可以不用请阿姨做家务了,机器人可以取代阿姨,没有想到机器人首先要取代的是我老婆和我本人。

聊天机器人面临的四大问题

目前的聊天机器人,不管是基于ChapGPT技术,还是谷歌技术,还是Meta的技术,还是其他公司的技术,都需要解决以下四大问题:

一是如何确保事实性信息的准确性,比如到底是谁拍到了首张地球外行星的照片;到底是谁发明了楔形文字。

二是如何确保推理性信息的准确性,比如不少网友发现,某些简单的数学方程式和逻辑问题,Sydney都答错了,人工智能成了“人工智障”;

三是如何确保机器人不发展出诡异变态的个性和人格。欺骗、污蔑、操纵、辱骂、监视用户,这显然是不能接受的。人类有无数种心理精神疾病,无数种人格障碍,如何确保机器人不染上这些疾病,不展示出病态人格,至少不要过于严重,是个至关重要的问题。

四是如何确保机器人保持客观中立,不受价值观影响。比如有一名用户要求ChatGPT写首诗赞颂前总统特朗普,却被ChatGPT以政治中立为由婉拒。但是当被要求写首诗赞颂现任总统拜登时,ChatGPT却毫不迟疑地写了首热情洋溢的诗。

不管怎样,人工智能时代已经来临。继农业社会、工业社会、信息社会之后,人类迎来了智能社会。

人工智能的这些问题多多少少早晚都会得到一定程度的解决。完全解决是不可能的,也是没有必要的。如果一个新技术必须解决所有问题才能推广,那么人类社会就不会有进步。

时到今日,每年还有很多人触电身亡,很多人死于车祸,但是没有人会提议禁止电,禁止车。

我们甚至都没有禁止核能的使用,而从规模看,人类研制的核武器足以毁灭整个地球。

而人工智能很可能也是这样一种技术。不管是不是,解决的方法肯定不是不让它发展,而是如何有序发展,让它造福全人类,而不是毁灭全人类。同时希望马斯克的火星基地尽快造好。

  • 作者:曾在复旦学习、任教9年;曾在中欧国际工商学院供职20年。微信个人公众号:无语2022,微信视频号:无语2022。


「 图片 | 视觉中国 」

开白名单:duanyu_H 商务合作:qspyq_biz@163.com

内容合作、投稿交流:friends@chinamoments.org

欢迎点看【秦朔朋友圈视频号】

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存