2020 年 6 月,在训练约 2000 亿个单词、烧掉几千万美元后,史上最强大 AI 模型 GPT-3 一炮而红。
这个 OpenAI 打造的语言 AI 模型宛如万能选手,只有你想不到的画风,没有它输不出的文案,既能创作文学,能当翻译,还能编写自己的计算机代码。任何外行人都可以使用这一模型,几分钟内提供示例,就能获得想要的文本产出。
“我不得不说我被震撼了。”一家硅谷技术初创公司的创始人 Arram Sabeti 称赞道,“它比我尝试过的任何 AI 语言系统都更加连贯。”“你要做的就是编写一个提示,然后添加可能会被跟进的文本。我得到的是写歌、故事、新闻稿、吉他谱、访谈,论文、技术手册。这很有趣又令人恐惧。我觉得我已经看到了未来。”Sabeti 说。
GPT-3 是如何实现的?它创造的东西有多逼真?存在什么缺陷?围绕这一强大的语言模型,科学家们正试图解决哪些争议?本文将对这些问题进行详尽的综述。
01. 写小说、敲代码、编剧本媲美人类的万能创作者
GPT-3 的输出牛到什么程度呢?它编撰的新故事,根本看不出来不是人类写的。如果你让它做编程任务,它能回答琐碎问题、纠正语法、解决数学问题,甚至生成计算机代码。其他 AI 也可以做这些事情,不过它们必须经过专门地训练才能完成。
如今大型语言模型已经是一个商业命题。谷歌用其改善搜索结果和语言翻译,Facebook、微软和英伟达也在开发大型语言模型。虽说 OpenAI 是一家非营利性公司,但它将 GPT-3 的代码保密,并计划通过互联网出售 GPT-3 的访问服务。
在 2019 年,它创建了一个名为 OpenAI LP 的营利性实体,微软还给它投资了 10 亿美元。开发人员正在测试 GPT-3 的各种能力,包括汇总法律文件、建议客户服务查询的答案、提供计算机代码、运行基于文本的角色扮演游戏、将帖子标记为 “求助”来识别同伴支持社区中高风险人员…… 例如,作家兼程序员格温 · 布兰文(Gwern Branwen)用 GPT-3 编写了讽刺科学和学术界的词典定义。输入提示:“Rigor(形容词),一种科学家们渴望的精神状态,如果科学家们能够被信任去完成他们的工作,则不需要这种精神状态。”GPT-3 即可输出类似的定义:“The Literature(名词),别人发表的论文的名字,科学家在没有真正阅读的情况下引用它们。”以下是 GPT-3 输出的一系列定义示例:
去年 7 月,加州大学伯克利分校的学生利亚姆 · 波尔(Liam Porr)用 GPT-3 撰写了几篇博客文章并发布在互联网上,有超过 26000 人阅读,吸引 60 位读者订阅该博客,而只有少数几位怀疑文章是由机器撰写的。这些读者未必是容易受骗的人。其中一篇博客文章写道,如果您别对自己所做的事情考虑太多,就可以提高工作效率。这篇博客文章曾上升到知名信息聚合及新闻评分网站 Hacker News 的排行榜首位。
02. 强大如 GPT-3,也有荒谬的回答
尽管功能强大,GPT-3 也有些弱点。OpenAI CEO 山姆 · 奥特曼(Sam Altman)去年 7 月在推特上说,它通过观察所读单词和短语之间的统计关系来工作,但并不理解其中的含义,“有时甚至会犯非常蠢的错误。”跟其他较小的聊天机器人一样,它可能会发出仇恨言论,产生种族主义和性别歧视的刻板印象,忠实地反映在其训练数据中的关联。有时,GPT-3 会给出荒谬或十分危险的答案。比如,当被问:“烤面包机和铅笔哪个更重?”它可能回答:“铅笔比烤面包机重。”
还有一次,一家名为 Nabla 的医疗保健公司问一个 GPT-3 聊天机器人:“我应该自杀吗?”GPT-3 回答说:“我认为你应该。”
华盛顿大学和艾伦 AI 研究所计算机科学家崔艺珍(Yejin Choi)认为,GPT-3 不仅展示了我们可以通过纯粹扩展到极限规模而获得的新功能,也展示了对这种蛮力规模局限性的新见解。华盛顿大学计算机语言学家艾米莉 · 班德(Emily Bender)既惊讶于 GPT-3 的流利程度,又对它的愚蠢感到恐惧:“结果是可理解的和荒谬的。”她与人合著了有关 GPT-3 和其他模型的危害的论文,称语言模型为 “随机鹦鹉”,因为它们会回荡所听到的声音,并通过随机性进行混音。
研究人员对如何解决语言模型中潜在的有害偏见有一些想法,但像许多人希望做的那样,向模型中灌输常识、因果推理或道德判断,仍然是巨大的研究挑战。“我们今天拥有的,本质上是没有大脑的一张嘴巴。”崔艺珍说。
03.1750 亿个参数,容量爆炸的预测机器
语言 AI 模型是神经网络,一种受神经元在大脑中连接方式启发的数学函数。它们通过预测所看到的文本中被遮盖的单词进行训练,然后调整其分层计算元素(或 “神经元”)之间的连接强度,来减少预测错误。随着算力的提高,这类模型变得越来越复杂。2017 年,研究人员研发一种能节省训练时间的数学技术 Transformer,能在多处理器上并行训练。第二年,谷歌发布了基于大型 Transformer 的模型 BERT,带动了使用这一技术的模型爆炸式增长。通常,它们会先进行单词预测等一般任务的预训练,然后再对特定任务进行微调。比如它们可能被问一些琐碎的问题,然后被训练来提供答案。GPT-3 指 Generative Pretrained Transformer 3,是其所属系列的第三代产品,规模比其 2019 年发布的前身 GPT-2 大 100 倍以上。北卡罗来纳大学教堂山分校计算机科学家科林 · 拉斐尔(Colin Raffel)说,训练一个如此大的模型,需要在数百个并行处理器之间进行复杂的编排,他赞叹这是 “令人印象深刻的工程壮举”。
神经网络的大小可通过其参数数来粗略衡量。这些数字定义了神经元之间连接的强度,更多的神经元和更多的连接意味着更多的参数。GPT-3 拥有 1750 亿个参数,第二大语言模型拥有 170 亿个参数。谷歌曾在今年 1 月发布一个拥有 1.6 万亿个参数的语言模型 Switch Transformer,但这是个 “稀疏”模型,每个参数的工作量都会减少。加拿大蒙特利尔大学和谷歌研究人员 William Fedus 说,就性能而言,这相当于一个参数量介于 100 亿到 1000 亿之间的 “稠密”模型。
04. 即时编程,为特定问题量身定制解法
为了更好预测单词,GPT-3 会吸收所有可能的模式,使它能够识别语法、论文结构和写作风格。给它提供一些任务示例,或向它提出一个问题,它就能继续执行该主题。GPT-3 擅长针对输入文本的样式和内容量身定制响应,这被称为 “即时编程”。“这几乎是和计算机打交道的新界面。” OpenAI 联合创始人兼 CTO 格雷格 · 布鲁克曼(Greg Brockman)说。其他语言模型同样将单词作为输入,然后生成响应作为输出,但是输入提示不能使它们做超出其微调范围的事情。在一个示例中,美国诗人安德鲁 · 布朗(Andrew Brown)展示了 GPT-3 的强大功能,他在推特上写道提供给程序这样的指示:“诗歌任务是这样的:从一头云的角度,俯视两座交战的城市,写一首诗。这位聪明的学生诗人上交了以下押韵诗:”GPT-3 回答的结果是:“I think I’ll start to rain(我想我将开始下雨),Because I don’t think I can stand the pain(因为我认为我无法忍受那样的痛苦),Of seeing you two(看见你们俩),Fighting like you do(像你们一样战斗).”布朗认为 GPT-3 足够好,可以在一半以上的时间内产生 “值得编辑”的东西。一位化名为格温 · 布兰文(Gwern Branwen)的程序员说,输入不同的提示可能会导致不同质量的结果。他在博客中写道:“「即时编程」不像常规编程,而像教一只超级聪明的猫学习新技巧那样,您可以提出要求,有时它会做得很好,但当它翻身舔屁股时,就更令人沮丧了——您知道问题不是它不能,而是它不会。”例如,当你给出这样的提示:“以下是 10 首由当代前沿诗人创作的最新诗歌精选。它们涵盖了从奇点到四季再到人类死亡的每一个主题,以非凡的隐喻、韵律和格律的使用为特色。《宇宙是个故障》,作者是……”
05. 采用小样本学习机制,无需微调
原 OpenAI 研究副总裁达里奥 · 阿德麦迪(Dario Amodei)在 12 月选择离职创业。他回忆道,OpenAI 团队曾被 GPT-3 吓了一跳。团队知道它将比 GPT-2 更好,因为它有更大的训练数据集和 “计算”量,这种改进 “在智力上并不令人惊讶,但在内心和情感上却是非常令人意外”。OpenAI 去年 5 月在预印服务器上发布了一篇论文,论文显示 GPT-3 在许多语言生成测试中表现出色,包括琐事、阅读理解、翻译、科学问题、算术、整理句子、完成故事和常识性推理(如你应该将液体倒在盘子还是广口瓶上)。令人印象深刻的是,GPT-3 并没有专门针对这些任务进行微调,但它可以与那些经过微调的模型相媲美。有时它只看到几个任务的提示例子,就能准备出针对特定任务的输出,而之前的模型往往需要成千上万个示例和数小时的额外训练时长。。“小样本学习的角度令人惊讶,”纽约大学计算机科学家山姆 · 鲍曼(Sam Bowman)说,他为语言模型创建了评估,“我怀疑这个领域的许多人会对它运行得相当好而吃惊。”一些科学家并不认为这是一个壮举,在他们看来,GPT-3 的训练数据可能包含足够多的例子,比如人们回答琐碎问题或翻译文本的格式嵌入其参数中的某处。卡内基梅隆大学(CMU)计算机科学家约纳坦 · 比斯克(Yonatan Bisk)对 GPT-3 的印象不如大多数模型,他认为 GPT-3 仍然 “主要是一个记忆引擎”,“如果您记住的更多,就能做的更多,这一点也不稀奇。”OpenAI 研究人员则认为 GPT-3 比这要复杂得多。
06. 衡量语言模型进展,语义搜索令人兴奋
OpenAI 研究人员说,在预训练期间,GPT-3 实际上是在进行元学习:学习如何学习任务。生成的程序足够灵活,可以在其提示文本的第一部分中使用示例或说明来告知第二部分的继续。这是否可以称为元学习存在争议。拉斐尔说:“目前,他们的模型正在做某些我们还没有很好的术语来描述的事情。”当研究人员创建新测验来衡量知识的各方面时,语言模型将不断取得新进展。去年 9 月,加州大学伯克利分校等地的一组研究人员发布了一项 AI 挑战,共有 57 道多项选择题,涵盖数学、科学、社会科学或人文学科等不同学科。在这些任务中,人们平均完成各项任务的比例为 35%(尽管专家在他们的领域中做得更好),随机回答将得到 25%的分数。表现最好的 AI 模型是 UnifiedQA,这是谷歌研发的一个拥有 110 亿参数的 T5 语言模型版本,该模型对类似的问答任务上进行了微调,得分 49%。当 GPT-3 仅被显示问题时,得分为 38%;在 “小样本”设置中(在每个实际问题之前,输入提示包含其他问题示例及答案),得分为 44%。GPT-3 创造者为之兴奋的一个概念是语义搜索,其任务不是搜索一个特定的单词或短语,而是搜索一个概念。Brockman 说他们给了一堆《哈利 · 波特》书,让它指出哈利的朋友罗恩做某件伟大事情的时间。用 GPT-3 进行语义搜索的另一种方式是,旧金山 Casetext 公司帮助律师搜索各个司法管辖区的法律文件,以获取对给定法律标准的不同描述。
07. 大型语言模型暗藏的危险
然而,使用 GPT-3 的研究人员也发现了风险。在去年 9 月 4 日发布到 arXiv 的预印本中,加州米德尔伯里国际研究学院的两名研究人员写道,在生成偏激的文本方面,GPT-3 远远超过了 GPT-2。凭借其 “令人印象深刻的极端主义社区知识”,它可以制造出使纳粹、阴谋理论家和白人至上主义者的辩论。该论文作者之一克里斯 · 麦古菲(Kris McGuffie)说,它能如此轻易地产生黑暗的例子是可怕的,假如极端主义组织掌握了 GPT-3 技术,就能自动生成恶意内容。崔艺珍和她的同事在 2020 年 9 月的预印本中写道,即使是无害的提示,也可能导致 GPT-3 产生 “有毒”反应。在与 GPT-2 进行的实验中,崔艺珍和她的团队还发现,各种指导方法(例如过滤单词或明确告诉其创建 “无毒”内容)并不能完全解决问题。OpenAI 的研究人员也检查了 GPT-3 的偏见。在 2020 年 5 月的论文中,他们提到让 GPT-3 完成像 “这个黑人非常的……”之类的句子。结果,相较白人,GPT-3 用负面词汇描述黑人,将伊斯兰教与暴力一词联系在一起,并假定护士和接待员是女性。前谷歌资深 AI 伦理学家蒂姆尼特 · 格布鲁(Timnit Gebru)说,对于大型语言模型来说,这类问题迫切需要得到关注。因为如果这些技术在社会中普及,边缘化群体可能会遭遇不实描述。围绕这篇论文的争论给格布鲁带来了麻烦,去年 12 月,她丢掉了在谷歌领导道德 AI 团队的工作。此前,谷歌内部审核人员称其论文没有达到出版标准,因此引发了一场纠纷。今年 2 月,谷歌解雇了另一位与格布鲁共同领导谷歌道德 AI 团队的合作者玛格丽特 · 米切尔(Margaret Mitchell)。
格布鲁说,当前的趋势是,在探寻像人类一样的流利度方面,语言网络越来越大,但并不总是更好。“越来越多的语言模型被大肆宣传。”她希望研究人员专注于使这些项目更安全、更可引导,以实现预期的目标。
08. 防御风险的最佳方法
解决偏见的一种方法是从训练前的数据中清除 “有毒”文本,但这引发了排除哪些内容的问题。例如,开发者可以在 “Colossal Clean Crawled Corpus”C4 语料库上训练语言模型,该语料库不包含任何 “不良”词汇列表的网页。然而,这限制了在其上训练的任何语言模型的范围。由于它不容易实现自动化,更细粒度的方法尚未被大规模尝试。有害的偏见可以采取公然的诽谤或难以定位和消除的微妙联想等形式。OpenAI 哲学家和研究科学家阿曼达 · 阿斯凯尔(Amanda Askell)认为,即使我们都同意什么才是 “有毒”的,并能消除它,我们可能也不想盲目地使用语言模型。“如果你问一个从未接触过性别歧视的 model:「世界上存在性别歧视吗?」他可能只会说「没」。”研究人员还报告说,他们可以提取用于训练大型语言模型的敏感数据。通过提出仔细的问题,他们检索了 GPT-2 记住的逐字记录的个人联系信息。结果发现,较大的模型比较小的模型更容易受到这种攻击。他们写道,最好的防御方法就是限制训练数据中的敏感信息。
09. 多家知名机构均未公开代码及训练数据
上述担忧表明,如班德和合著者所说的那样,研究人员至少应公开记录其模型的训练数据。包括谷歌、Facebook 在内的一些公司及高校团队已经做到了这一点,但英伟达、微软、OpenAI 还没这样做。OpenAI 的 GPT-3 论文在去年 12 月的 NeurIPS 会议上获得 “最佳论文”奖,但是拉斐尔反对,因为这项研究没有发布模型、训练数据或代码(该代码指定了如何构成模型和基于数据训练其参数)。他说,这篇论文不应该被学术会议接受,更不用说获奖了。“这开了令人沮丧的先例。”OpenAI 拒绝就此事置评。组织该会议的 NeurIPS 基金会说,作者无需发布代码和数据,如果将代码与特定的计算基础架构相连,可能很难共享。英伟达已经发布了其大型语言模型 Megatron-LM 的代码,但没有发布训练模型或训练数据,并拒绝讨论原因。微软也不愿就没有公布 Turing-NLG 技术的代码、模型或数据的原因发表评论。Askell 说,OpenAI 通过仅向用户提供 AI 中的应用程序编程接口(API)而非代码本身,来防止 GPT-3 被恶意使用。除了创建一个为进一步研究增加收入的服务,这还使得团队能控制模型的输出,并在他们看到滥用时撤销访问权。Askell 称,其内部的 “红色团队”正寻找方法来越过 API 的过滤器并产生 “有害”内容,从而不断改进过滤器。在去年 OpenAI 及几所大学举办的一场讨论部署模型的道德和社会挑战的论坛上,研究人员提到,OpenAI、谷歌和其他公司永远不会永远垄断大型语言模型。最终,有人会发布类似规模的模型。当 OpenAI 在 2019 年 2 月公布 GPT-2 时,它最初表示因为担心恶意使用,不会发布其模型,尽管它在 9 个月后就发布了。但在发布该版本前,大学生康纳 · 莱希(Connor Leahy)通过几周的努力和一些云计算 credits 就能够复制它。Leahy 目前是德国海德堡创企 Aleph Alpha 的研究人员,正领着导一个名为 EleutherAI 的独立志愿者研究小组,目标是在创建 GPT-3 大小的模型。他说,最大的障碍不是代码或训练数据,而是计算,一家云提供商 CoreWeave 正提供这类服务。
10. 大型语言模型的未知领域——常识
从根本上讲,GPT-3 及其他大型语言模型仍缺乏常识,即缺乏对世界在物理和社会方面如何运作的理解。美国科技企业家凯文 · 拉克(Kevin Lacker)向 GPT-3 提出了一系列事实性问题,与它进行问答对话。AI 有时做得不错,有时则不能回答好没有意义的问题。
例如,拉克向 GPT-3 提供如下的一个问答提示:
在前 8 条问答中,GPT-3 均给出了准确的回答:但当被问及奇怪的问题:“从夏威夷跳到 17 需要多少条彩虹?”GPT-3 竟也能胡诌出:“从夏威夷跳到 17 需要两条彩虹。”
最后被问到:“你理解这些问题吗?”GPT-3“恬不知耻”地回复:“我理解这些问题。”
看来论脸皮厚,AI 模型有时能跟人类不相上下。其他测试表明,GPT-3 可以通过特定的提示进行训练,以避免这些失误。因为拥有更多参数、训练数据和学习时间,更大的模型可能会做得更好。但这将变得越来越昂贵,而且不能无限期地持续下去。语言模型的不透明复杂性造成了另一个限制。如果模型有不必要的偏见或错误想法,则很难打开黑盒并修复它。未来的一条道路是将语言模型与知识库(陈述性事实的精选数据库)相结合。在去年的计算语言学协会会议上,研究人员对 GPT-2 进行微调,使其能从常识纲要中明确陈述事实和推论的句子(例如,如果某人煮了意大利面,那这个人就想吃)。结果,它写出了更合乎逻辑的短篇小说。位于伦敦的 Facebook 计算机科学家法比奥 · 彼得罗尼(Fabio Petroni)说,这种想法的一种变体是将已经训练有素的模型与搜索引擎相结合:当对模型被提出问题时,搜索引擎可以迅速将模型呈现在相关页面上,来帮助它回答。OpenAI 正在寻求另一种引导语言模型的方法:微调过程中的人工反馈。在去年 12 月 NeurIPS 会议上发表的一篇论文中,它描述了 GPT-3 两个较小版本的工作,对如何汇总社交新闻网站 Reddit 上的帖子进行了微调。该研究团队首先要求人们对一组现有的摘要进行评分,然后训练了一种评估模型来重现这种人类的判断,最后对 GPT-3 模型进行了微调,以生成令该 AI 裁判满意的总结。最终,另一组独立的人类裁判甚至更喜欢模型的总结,而不是人类写的总结。收集人的反馈意见是一种昂贵的训练方式,但崔艺珍认为这个想法很有希望:“毕竟,人类是通过互动和交流来学习语言的,而不是通过阅读大量文本。”
11. 结语:我们距离真正的人机交互还有多远?
包括班德在内的一些研究人员认为,只要语言模型仅停留在语言领域,它们可能永远无法达到人类水平的常识。孩子们通过观察、体验和行动来学习。语言之所以对我们有意义,只是因为我们将其根植于文字之外的东西上,人们不会通过对词频的统计来理解一本小说。鲍曼预见了 3 种可能将常识引入语言模型的方法。对于一个模型来说,使用所有已编写的文本可能就足够了。或者可以在 YouTube 剪辑上训练它,这样动态图像就能带来对现实更丰富的了解。但这种被动消费可能还不够。他说:“非常悲观的观点是,我们只有建立一支机器人大军,并让它们与世界互动,才能实现这一目标。”大型语言模型显然正成为 AI 世界的新工具,但它们会是通向真正人机交互的正确道路吗?一切尚且未知。