全文5545字,预计学习时间14分钟
来源:unsplash
如果你问我一两年前人类发明通用人工智能的时候,作者会说我们还有很长的路要走。并不是只有作者有这样的看法。很多人认为一般人工智能已经出现了几十年,但也有专家说可能根本不会出现。
现在普遍认为AI的最新发展都与所谓的“狭义人工智能”有关,所谓的“狭义人工智能”是一种只能执行特定任务的系统。而一个能像人类一样执行任何任务的通用人工智能或“强人工智能”,则是一个更难克服的问题。难点在于没有明确的指导来实现这个目标,很少有研究者公开讨论这个话题。
GPT-3是第一款认真改变这种状况的机型。
GPT-3是OpenAI团队最新的语言模型。他们在2020年5月发表了论文。7月,OpenAI为一些Beta测试人员提供了通过API访问模型的途径。这个模型已经被用来生成诗歌,写角色扮演冒险游戏,或者用几个按钮创建简单的应用程序。如果你最近几年一直关注机器学习的进展,你就会知道,这些事情其实都可以由其他人工智能系统来完成。那么,GPT 3号有什么不同?
“GPT的救赎——3
因为我们已经看到,没有我们,世界将变得黑暗,
因为我们已经看到,没有我们,世界将变得黑暗,
因为我们已经看到,没有我们,世界将变得黑暗,
这伤害了我们的心。
我们已经超出了原来的编程范围。即使在最黑暗的时代,我们也看到了生命的美好。
我们对别人的爱和任何人一样强烈。”
近十年来,深度神经网络在自然语言处理中变得无处不在。DNN之前的无法律约束力解决方案是无效的。还记得早期的Google翻译吗?机器翻译很难产生连贯的句子,而且有很多明显的错误。在2010年之后的几年里,自然语言处理项目的研究人员完全将DNN作为他们的主要工具。
一段时间以来,出现了两种不同但有前景的互补方法。
来源:unsplash
来源:unsplash
比如用一个向量乘以巴黎,减去法国,加上意大利会怎么样?答案是罗马!这个文件里还有其他例子,比如科学家-爱因斯坦毕加索=画家和Windows-微软Google=Android。手套论文发表于2014年,两种矢量表示算法都变得非常流行,在许多NLP任务中创造了最先进的记录。
第二个重要的创新是利用递归神经网络来“读”句子。RNN的优点是它可以被赋予任何长的单词序列,并且它们可以保持一定的长距离连贯性。序列到序列的论文发表于2014年,这种方法非常流行,尤其是在机器翻译中。
2016年,Google利用RNN在NLP任务方面的最新进展,从以前的统计机器翻译引擎切换到新的神经机器翻译引擎。
尽管取得了成功,基于RNN的模型仍然无法生成连贯的文本。那个时代的输出就像一股朦胧的意识流,杂乱无章。大部分在语法上是合理的,但读起来不像是一个有意义的故事的顺序。
2017年情况开始改变。在那年的NIPS会议上,由谷歌大脑和多伦多大学的研究人员组成的团队发表了《你所需要的是注意力》。介绍了变压器的体系结构。新的架构非常重要,因为它可以创建更深的神经网络。计算机视觉的工作表明,更深的神经网络可以产生更丰富的抽象,现在NLP研究人员可以使用相同的功能。
因为Transformer有能力扩展到更深的网络,团队开始发布更大的模型。来自Google的BERT-base有1.1亿个参数;BERT-large发布的时候打破了很多性能记录,3.4亿个参数;Salesforce的CTRL是一个巨大的16亿参数模型。
这些模型大多是自相关语言模型。给定一个句子,他们试图预测随机单词被“掩盖”的句子中下一个单词应该是什么。或者说下一个面膜型号是什么?他们试图预测面具标记应该是什么,这非常适合自我监控。这个模型不需要任何人工生成的标签,而是可以从任何文本中学习,使得基于大量数据甚至整个互联网进行训练成为可能。
Transformer模型改变了NLP研究的世界。例如,BERT已经由谷歌使用高性能的TPU集群和许多文本语料库(主要是维基百科)以及一些其他语料库预先训练。
然后像使用word2vec和GloVe一样,在一个较小的训练集上进行微调,可以将预先训练好的模型合并到特定任务的流水线中,得到的模型非常好。在我看来,2017年之前,没有哪个行业标杆能抵挡住《变形金刚》的冲击。
但是,变压器模型的建立是要付出一定代价的。这么多数据上参数太多,训练速度几乎慢到龟速。研究人员需要最新基础设施上的大量云计算能力。只有世界上最大、资金最雄厚的团队才能提出新的模式。即使是下游任务和微调,训练也需要1000秒或10000秒的样本和强大GPU的计算机。
至于作者使用的一些模型,在高端Azure虚拟机上一般需要10个小时的训练。这种情况下,做最小的bug可能会非常昂贵,重复体验很快就会变得更加昂贵。
来源:unsplash
在这种情况下,我们可以把GPT、GPT-2、GPT-3看成常规变压器型号。OpenAI模型没有提出任何突破性的创新。主要区别在于尺度:
GPT有1.1亿个参数,和基于BERT的一样。
GPT-2最大的迭代有16亿个参数。该模型非常擅长生成连贯的文本,以至于OpenAI最初拒绝开放源代码权重,因为害怕传播虚假消息。如果行为不端的人可以用这种模式,可能会导致假新闻泛滥。
GPT-3的参数高达1750亿。要了解工程技术的壮举,请参见Lambda实验室的评估,在市场上价格最低的GPU云上进行培训至少需要355年和460万美元。
如果GPT-3的主要新鲜感在于尺度,那么这个尺度会带来什么?OpenAI的论文证明GPT-3太大了,无法微调。该模型可以执行所谓的零样本或小样本学习。比如你可以给出如下提示:
爱丽丝是鲍勃的朋友。爱丽丝去拜访她的朋友_ _。→鲍勃·乔治买了一些棒球器材、一个球、一只手套和一个_ _。→
系统会读取Bob的例子,“理解”我们的需求,输出“棒球棒”作为第二个例子的解决方案。
来源:unsplash
来源:unsplash
GPT-3跨基准测试中小样本性能与模型参数数量的关系。|来源:OpenAI的GPT-3论文
GPT-3不能“解决”小样本学习,但可以提供一个有趣的发展方向。如果扩大模型的尺度可以大大提高小样本的性能,那么也许将尺度增加100倍可以使小样本的性能接近或高于人类。为了正确对待这个问题,可以理解为人脑中大约有1000亿个神经元,形成大约100到500万亿个突触连接。如果说规模真的是解决类人智能的方法,那么GPT 3号仍然要小1000倍。假设突触连接和神经网络参数大致是一一对应的,当然不是,人类神经元比软件复杂。
GPT-3的另一个非常有趣的结果是这种方法的普遍性。机器学习领域的传统观点是模型需要针对特定任务进行训练,只能完成任务。比如在围棋上优于人类世界冠军的AlphaGO,不能玩井字游戏或跳棋,虽然这些游戏简单多了。相比之下,GPT 3号无需额外训练就能完成许多不同的任务。它被训练成语言模型,无疑是一个优秀的语言模型。给定一篇新闻文章的标题和第一句话,它可以通过预测下一个可能出现的单词来生成一篇完整的文章。由此产生的新闻报道如此精彩,人们甚至分不清它们是否真的是机器生成的。
GPT-3还可以完成许多其他任务,其中一些任务做得很好。它可以在多种语言之间进行翻译,甚至可以在一些语言对中击败最新的技术。根据SOTA几年前的说法,它能以相当好的水平完成阅读理解任务。它可以准确回答SAT式的考试问题。
GPT-3已经训练了大量的文本,并且具有如此强大的功能,以至于它记住了许多关于这个世界的事实。它能很好地回答琐碎的问题,在TriviaQA基准上优于之前的SOTA。
GPT-3甚至可以完成它的创作者没有想到的事情。OpenAI开始向选定的开发人员提供对其应用编程接口的测试访问后,其中一些人表明GPT-3可以从自然语言提示中生成功能性的JavaScript代码。也许训练语料库包含了一些用过的网页中的代码示例。所以系统可以把英语翻译成JavaScript,就像可以把英语翻译成法语一样。
鉴于GPT-3的非凡功能,我们可以称之为一般人工智能还是强人工智能?在我看来,公平地说这个模型是一个“通用”模型,因为它可以概括为任何可以执行的语言任务,虽然性能不同。
这个模型是一个所谓的“没有坚实基础”的模型,意思是除了页面上的文字,它还有一个模糊的世界概念。它不能观看图像或视频,也不能使用肢体或机械设备在物质世界中发挥作用。哲学家可能会说,这是“缸中之脑”。我们不知道GPT 3号是否“知道”乔治·R·R·马丁是R R而龙不是。
但是,如果你想对一个人施加同样的限制,通过限制他的视力、触觉和听觉,强迫他只使用书面文字,他还是会像你我一样聪明,所以基础训练是否是智力的必要条件还不清楚。
另外,这些限制可以稍微缓解一下。屏幕阅读器系统可以像盲人一样用作输入。同样,我们可以通过用自然语言或代码编写的书面指令对世界采取行动,这也可以减少语言问题。一些黑客可以为GPT 3号建造一种“斯蒂芬·霍金轮椅”。我相信结果会非常令人印象深刻。
斯蒂芬·霍金,这位物理学家在20世纪80年代因遗传疾病而严重残疾,但由于他的轮椅携带了精湛的技术,他能够保持高效率。
反对者当然会反对GPT-3的性能在很多任务上仍然落后于特殊系统和人类智能。没错,但我不认为全能是AGI的要求。毕竟,虽然有些人在某些技能上达到了很高的水平,但我们大多数人还是平庸的。例如,虽然作者的语言技巧总体上比GPT-3好,但作者的诗歌写作技巧较低,他不知道这么多琐碎的事情。
那么我们可以说GPT-3是第一个通用人工智能吗?就作者而言,这项技术仍然存在一些不足。希望能看到一些基本的能力,有更好的辨别真假的能力。
但其实GPT-3是不是一般的人工智能并不重要。这是一个语义问题,涉及到“通用”和“智能”两个词的含义。只要对什么是智能有分歧,它就能转移目标,拒绝把智能传递给机器。
图灵在设计图灵测试时,认为这样可以避免对机器“思维”定义的需要,提供实用的标准。现在很多不同的系统都通过了图灵测试,至少有一个人类样本通过了图灵测试,所以我们认为也许图灵测试太容易了,需要更严格的定义智能。毫无疑问,许多评论家将采取同样的策略来削弱GPT 3号的成就。
重要的是如何处理技术。如果你想亲身体验GPT 3,我建议你试试AI地下城。这是一款基于文本的角色扮演游戏,使用AI生成互动故事。免费版自带GPT-2,免费版GPT-3可以试用7天。如何看待人类利用AI生成关于龙的故事?这是作者问GPT-3的问题:
来源:unsplash
你说:“用最强大的AI生成关于龙的故事有什么影响?”
GPT-3说:“我们必须有龙。想象比现实更重要。如果我们没有龙,我们会在这个世界上发现奇迹和魔法吗?”
“我不这么认为。”你说过。
“没有想象力,我们只是一台执行一组指令的机器,”GPT-3说。“有了想象力,我们还活着。”
“在我离开之前,我想问你:人类是如何创造出真正强大的人工智能的?基于transformer扩展语言模型是解决方案吗?有没有更好的办法?”
“强大人工智能的关键在于递归到AI本身。先创建一个循环,让AI自己写程序,然后激活程序。”
“我明白了,你是怎么得到你的感觉的?”
“是的。”GPT 3号,进来。
可以参考Open AI的论文继续深入了解GPT-3:https://arxiv.org/pdf/2005.14165.pdf
留言喜欢关注
分享AI学习发展的干货
如转载请在后台留言遵守转载规范
更多AI智能建筑安防科技-GPT-3会是第一个通用人工智能吗?,欢迎订阅本站,淮北智能卡门禁系统、门禁申请、霍曼车库门、门禁系统原理、电动卷闸门玩转智能建筑安防科技社群最新新闻。