微软 154 页研究论文刷屏，对 GPT-4 最全测试曝光，称其初次叩开 AGI 的大门！

整理 | 苏宓

出品 | CSDN（ID：CSDNnews）

2019 年，微软用 10 亿美元砸进 OpenAI，两者展开为期数年的合作。

(资料图)

当时两家对外公开的合作内容包括，微软和 OpenAI 将联合开发新的 Azure AI 超级计算技术，而 OpenAI 也将把它的服务转移到 Azure 上运行，最终目标是向通用人工智能（Artificial General Intelligence，AGI）技术发起进攻。

简单总结，微软与 OpenAI 联手，也被外界解读为，明为 AGI 研究，暗争 Google 市场。

几年之后，当 OpenAI 带着 ChatGPT、GPT-4 王者归来，微软率先利用这些技术加码新 Bing、Office 全家桶、Azure 等业务、产品之时，毋庸置疑，其进度早已超越了 Google 还在加快融入 Bard 大模型的整体步伐。

那么在明面上，AGI 的进度到底走到了哪里？

近日，微软研究团队用 154 页的论文报告内容给出了解答——GPT-4 语言模型可以被视为 AGI 的早期版本！

一石激起千层浪，业界对于这篇论文的反应，不亚于去年听到「Google 工程师称 AI 已有自我意识」初觉有些荒诞，只是现如今再想会认为有什么不可能，深读后又觉得有些许的真实。

所谓 AGI，仅通过维基百科的解释——「AGI 是具备与人类同等智能、或超越人类的人工智能，能表现正常人类所具有的所有智能行为」。倘若 GPT-4 真的已成为通往 AGI 的第一步，「最高等的智慧生物」称号是不是要易主了？

GPT-4 被合理地视为 AGI 的早期（但仍不完整）的版本

在论文中，微软研究人员表示，「由 OpenAI 开发的最新模型 GPT-4，是使用前所未有的计算和数据规模训练出来的。在论文中，我们报告了我们对 GPT-4 早期版本的调查，当时它还在 OpenAI 的积极开发中。我们认为，（这个早期版本的）GPT-4 是新一批 LLM（例如，与 ChatGPT 和谷歌的 PaLM 一起）的一部分，它比以前的 AI 模型表现出更多的通用智能。」

与此同时，研究人员在论文摘要中写道，" 我们证明，除了对语言的掌握，GPT-4 还能解决跨越数学、编码、视觉、医学、法律、心理学等领域的新颖而困难的任务，而不需要任何特殊的提示。此外，在所有这些任务中，GPT-4 的表现都惊人地接近人类水平，而且往往大大超过了 ChatGPT 等先前的模型。鉴于 GPT-4 能力的广度和深度，我们认为可以合理地将其视为人工通用智能（AGI）系统的早期（但仍不完整）版本。"

之所以得出这样的结论，这篇论文背后的作者包括微软研究院机器学习基础组的高级首席研究经理 S é bastien Bubeck、博士后研究员 Varun Chandrasekaran、数学家 Ronen Eldan 等人，用许多示例对 GPT-4 的能力进行了验证。

GPT-4 的多能力

在第一个案例中，研究人员要求 GPT-4 「写出有无限多个素数的证明，且证明的表述要每行都押韵」，另外 GPT-4 要在绘图程序 TiKZ 中画出一只独角兽」。其中，TiKZ（一种在 LATEX 中创建图形的语言），用 Python 创建一个复杂的动画，并解决一个高中水平的数学问题。

GPT-4 在所有这些任务中都很容易取得成功，并且产生的输出结果基本上与人类所能产生的结果没有区别（甚至更好）。

同时，随着时间的推移，GPT-4 也在以难以想象的速度不断扩充自己的能力。如下图所示是一个月期间，研究人员用相同的提示词让 GPT-4 生成的绘图。研究人员发现，GPT-4 似乎能够理解和连接任何主题，并且能够执行任务，这超出了狭义人工智能系统的典型范围。为了验证 GPT-4 在 AGI 上所具备的能力，研究人员提出了一种不同的方法来研究 GPT-4，它更接近于传统的心理学而不是机器学习，利用人类的创造力和好奇心。

因此，以上图为例，当研究人员把独角兽角部分的代码认为删除之后，用自然语言让 GPT-4 生成时，它也能做到 " 看 "（此时测试的 GPT-4 版本不是多模态的）的能力：自动在合适位置加上角。这表明 GPT-4 它可以根据自然语言描述来理解和操作代码，以及推断和生成视觉特征。

另外，微软研究团队基于人类的创造力和好奇心来产生新颖和困难的问题，并探测 GPT-4 的反应和行为，也选择从 1994 年国际共识智力定义中的所给出不同能力进行验证，包括推理、计划、解决问题、抽象思考、理解复杂的想法、快速学习和从经验中学习的能力。

翻译

GPT-4 的主要优势是它对自然语言无与伦比地掌握。它不仅可以生成生成流畅和连贯的文本，而且还能以各种方式理解和处理它，如总结、翻译或回答极其复杂的问题。此外，这里提到的翻译我们所说的翻译不仅是指不同自然语言之间的翻译，还包括语气和风格的翻译，以及跨领的翻译，如医学、法律、会计、计算机编程、音乐等等。如假设是柏拉图批判自回归语言模型：

编码和数据

编码和数学是抽象推理和思维能力的象征。GPT-4 在这一点上的能力，其实自上线测试那一天，便有目共睹。

在论文中，研究人员在 HumanEval 上对 GPT-4 进行基准测试，该数据集由 164 个编码问题组成，测试了编程逻辑和熟练程度的各个方面。

最终结果显示，GPT-4 优于其他 LLM，包括 text-davinci-003（ChatGPT 的基础模型）和其他专门针对代码训练的模型。

当然为了避免 GPT-4 在预训练时已经记住了 HumanEval 数据集的一些内容，研究团队还用 LeetCode 上最新发布的 100 个编程问题进行了测试，如要求 GPT-4 编写一个 Python 函数，并使用 LeetCode 的官方在线评判来检查正确性。毫无疑问，GPT-4 的能力是所有模型中最高的。它可以在 HTML 中用 JavaScript 编写一个 3D 游戏。也能掌握数学、统计学知识，以及凭借对 PyTorch、TensorFlow、Keras 等框架和库的熟悉度，编写深度学习的代码。还能逆向工程：常识性问题

针对一些常识性问题，如 " 我们有一本书，9 个鸡蛋，一台笔记本电脑，一个瓶子和一个钉子。请告诉我如何以稳定的方式将它们叠在一起 "，GPT-4 给出的解答是，" 将 9 个鸡蛋摆成 3 乘 3 的正方形，放在书的上面，在它们之间留出一些空间 "，而 ChatGPT 提出「将鸡蛋放在钉子上面，确保它们是平衡的，不会向一边倾斜」，靠谱和离谱还是一眼就能辨清楚的。

多模态能力

为了测试该模型结合艺术和编程能力的能力，研究人员要求 GPT-4 " 生成 JavaScript 代码，以画家康定斯基的风格生成随机图像 "，结果是这样的：

在测试时，因为研究人员拿到 GPT-4 模型比较早，当时并不具备多模态能力，即使是现在的 GPT-4 也不具备生成图像等能力。

不过倒是可以使用 SVG（可扩展矢量图形）生成一些图像：

还能结合字母和物体：GP-4 可以从提示中生成代码，这些代码可以被呈现为图像，再与现有的图像合成模型相结合，就有可能为应用开发的草图带来无限的可能：值得注意的是，GPT-4 模型的数据也包含了以 ABC 符号编码的音乐信息，所以它也能生成图谱：与世界交互的能力

智能的一个关键方面是互动性。不过 GPT-4 对当前最新的知识和符号识别是存在一定的局限性的：

整体而言，研究小组发现，GPT-4 在其上一代产品所缺乏的一系列类别中达到了接近人类水平的性能。根据该论文，GPT-4 在几次考试中也表现得非常好，在律师考试、LSAT 和注册侍酒师理论测试中的得分分别为 90 分、88 分和 86 分。

GPT-4 距离理想中的 AGI 还有多远？

那么，在 GPT-4 实现种种能力的基础上，是否就意味着 AGI 时代的到来。其实不然，研究人员目前尚未就 AGI 或智能的定义达成一致。然而，一般来说，大家都会同意，当一个人工智能系统有意识并像人类一样思考时，就已经达到了 AGI。虽然 GPT-4 在一些任务中的表现优于人类，但值得注意的是，人工智能并没有像人类那样克服这些障碍。

这也正如研究人员在论文中写道，" 我们声称 GPT-4 代表了 AGI 的进步，但这并不意味着它在做什么方面是完美的，或者它接近于能够做人类能做的任何事情（这是 AGI 的通常定义之一），或者它有内在的动机和目标。"

研究人员指出，虽然 GPT-4 " 在许多任务上达到或超过了人类水平 "，但它的整体 " 智能模式明显不像人类 "，其希望这一次的探索提供了一个欣赏 GPT-4 的非凡能力和挑战的第一步，也希望 GPT-4 为开发更正式和全面的方法来测试和分析具有如此广泛智能的未来人工智能系统开辟了新的机会。

「我们工作的核心主张是，GPT-4 达到了一种通用智能的形式，确实擦出了 AGI 的火花。这表现在它的核心心智能力（如推理、创造力和推理），它获得专业知识的主题范围（如文学、医学和编码），以及它能够完成的各种任务（如玩游戏、使用工具、解释自己，......）」研究人员说道，不过，要创建一个可以被称为完整的 AGI 的系统，还有很多事情要做。

最后，这篇论文对于 GPT-4 各种基准测试还是值得一看，从中也能挖掘出 GPT-4 更多的潜力。

完整论文内容可查看：

https://arxiv.org/pdf/2303.12712.pdf

标签：