谷歌发布人工智能模型“双子座”并向公众开放性能优于GPT-4模型和“专家级”人类—新闻

作者：李惠钰来源：中国科学报发布时间：2023/12/7 15:31:07

选择字号：小中大

谷歌发布人工智能模型“双子座”并向公众开放性能优于GPT-4模型和“专家级”人类

12月6日，美国谷歌公司推出了一款名为“双子座”的新人工智能模型，并声称该模型在一系列智能测试中都优于OpenAI的GPT-4模型和“专家级”人类。

双子座能处理文字、音频和视频。图片来源：Google

该公司首席执行官Sundar Pichai在今年5月的谷歌I/O会议上透露了双子座的存在，尽管当时它仍处于培训阶段。但今天，该公司宣布将向公众开放这款尖端模型。

双子座已经为不同的应用程序开发了3个版本，分别为Nano、Pro和Ultra，它们在大小和功能上都有所增加。谷歌拒绝回答有关Pro和Ultra的大小、包含的参数数量或训练数据的规模以及来源问题。但其最小的版本Nano适用于智能手机，它有两种型号：一种用于速度较慢的手机，具有18亿个参数，另一种用于功能更强大的设备，具有32.5亿个参数。比较人工智能模型的能力是一门不精确的科学，但据传GPT-4包括多达1.7万亿个参数，Meta的LLAMA-2有700亿个参数。

谷歌称，双子座的中端Pro版本击败了其他一些型号，如OpenAI的GPT3.5，但更强大的Ultra的能力超过了所有现有人工智能型号。它在行业标准MMLU基准上的得分为90%，“专家级”人类预计将达到89.8%。

这是人工智能首次在测试中击败人类，也是现有模型中的最高得分。该测试涉及一系列棘手的问题，主题包括逻辑谬误、日常场景中的道德问题、医学问题、经济和地理。

在同样的测试中，GPT-4得分为87%，LLAMA-2得分为68%，Anthropic的Claude 2得分为78.5%。在其他9项常见基准测试中，Gemini在8项中击败了所有这些模型。

Pro机型将集成到谷歌今年3月推出的在线聊天机器人巴德中。该公司表示，巴德的另一个版本巴德高级版将于明年初推出，并采用更大的双子座Ultra型号。

截至今天，新版《吟游诗人》将在170多个国家提供英文版，但它不会在英国和欧洲提供其他语言甚至英文版。谷歌的Sissie Hsiao表示，“我们正在与当地政策和监管机构合作，确保在其他领域推出产品之前遵守当地法律和其他类似规定。”

谷歌DeepMind的Eli Collins表示，双子座是该公司最大、能力最强的机型，也是最通用的机型，这意味着它可以适应各种任务。与目前许多专注于文本的模型不同，双子座接受了文本、图像和声音的训练，并能够接受所有格式的输入和输出。但从今天起，巴德的发布将只允许人们使用文本提示，该公司承诺“在未来几个月”允许音频和图像交互。

Collins表示，双子座“几乎在每个领域都是最先进的”，它仍在测试中，以确定在不同媒介、语言和应用程序中的工作能力。“我们仍在努力了解Ultra的所有新功能。”他说。

在发布会上，双子座没有任何版本可供测试，但谷歌展示了人工智能解决家庭作业问题和使用实时视频输入的演示。据称，它在开发软件方面也比以前的型号更好：去年，DeepMind发布了一款名为AlphaCode的人工智能代码生成器，该公司表示该生成器可以击败50%的人类开发人员，现在它正在发布一款由双子座支持的更新版本，该公司声称该版本可以击败85%的人类程序员。