谷歌发布史上“最强大脑”PaLM-E,机器人从此成了多面手

神译局

2023-03-13 19:37:00

已关注

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:ChatGPT 这段时间抢了 AI 领域大部分的风头。但近日谷歌推出的一款具备视觉能力,且不需要特殊训练就能引导机器人的 AI 模型 PaLM-E 也展现出了令人印象深刻的能力。这款迄今为止规模最大的视觉语言模型表现出来的涌现能力,令人对通用人工智能遐想联翩。文章来自编译。

PaLM-E控制的一个机械臂伸手去拿一袋薯片。Google Research

本周一,来自谷歌与柏林工业大学的人工智能研究人员小组推出了一个多模态具象化视觉语言模型 (VLM),它的名字叫做 PaLM-E,该模型的参数规模达到了 5620 亿个,里面集成了用于控制机器人的视觉与语言。研究人员声称,这是有史以来规模最大的 VLM,无需重新训练即可执行各种任务。

根据谷歌的说法,只需要给 PalM-E 下达一条高级命令,比如“把抽屉里的米饼拿给我”,它就可以给一个带机械臂的移动机器人平台(由谷歌机器人开发)生成行动计划,然后自行执行。

PaLM-E 是通过分析来自机器人摄像头的数据来实现这一点的,整个过程不需要对场景表示进行预处理。这样一来,就不需要人类进行预处理对数据做出注释,机器人的控制也可以更加自主。

在谷歌提供的演示视频中, PaLM -E 执行“从抽屉里给我拿袋米片”的指令,其中包括多个计划步骤,还要结合来自机器人摄像头的视觉反馈。

这个模型还具备弹性,可对环境做出反应。比方说,PaLM-E 模型可以引导机器人到厨房取出米饼袋,由于将 PaLM-E 集成到了操控系统之中,它可以对任务期间可能发生的中断具备耐受力。在一个视频示例里,研究人员好几次把机器人拿起的米饼袋又放了回去,但机器人会重新找到米饼袋然后再拿起来。

在另一个示例里,展示了同一个 PaLM-E 模型通过有着复杂序列的任务自主控制机器人。此前,这样的任务往往需要人工指导。谷歌的研究论文解释了 PaLM-E 是如何将指令转化为动作的:

我们展示了 PaLM-E 在具有挑战性以及多样化的移动操控任务上的表现。在设置上我们主要遵循的是 Ahn 等人的设置。 (2022),也就是机器人需要根据人类的指令来计划一系列的导航并操纵动作。比方说,给出指令“我把饮料给弄洒了,你能给我拿点东西来清理一下吗?”后,机器人需要规划一个包含有“1. 找到海绵,2. 捡起海绵,3. 拿海绵给用户,4. 放下海绵”的动作序列。在这些任务的启发下,我们开发了 3 个用例来测试 PaLM-E 的具身化推理能力:拟合性预测(affordance prediction)、故障检测以及长期规划(long-horizon planning)。底层控制策略(low-level policies)来自 RT-1 (Brohan et al., 2022),这是一种 transformer 模型,它可以利用 RGB 图像以及自然语言指令,然后输出末端执行器控制命令。

PaLM-E 属于“下一个标记预测器”(next-token predictor),之所以叫做“PaLM-E”,是因为它的基础是谷歌所谓的“PaLM ”大型语言模型 (与 ChatGPT 背后的技术类似)。通过添加感官信息以及机器人控制,谷歌让 PaLM “具象化”了。

由于它的基础是语言模型, 所以 PaLM-E 能对比方说图像或传感器数据进行连续观察,并将它们编码为一系列与语言标记规模相同的向量。这样模型就能以与处理语言相同的方式去“理解”感官信息。

谷歌还提供了一段演示视频,里面展示了在 PaLM-E 的引导下,一个机器人按照指令“给了我一颗绿色的星星”。研究人员说,这颗绿色的星星“是这个机器人之前没有直接接触过的物体。”

除了 RT-1 机器人 transformer 外,PaLM -E 还借鉴了谷歌之前在 ViT-22B 上的工作。ViT-22B 是今年 2 月份公布的一个视觉 transformer 模型。ViT-22B 已经接受过各种视觉任务的训练,比方说图像分类、对象检测、语义分割与给图像加字幕等。

致力于利用神经网络进行机器人控制的研究小组不止 Google Robotics 一个。这项研究让人想到了微软最近发表的那篇论文(《ChatGPT for Robotics》),里面也探讨了用类似的方式将视觉数据以及大型语言模型结合起来,对机器人进行控制。

机器人姑且不谈,谷歌的研究人员观察到了一些有趣的效应,这些效应显然是因为 PaLM-E 用大型语言模型作为核心。首先,它有“正迁移”的表现,这意味着它可以将从一项任务学到的知识和技能迁移到另一项任务,与执行单任务的机器人模型相比,前者的“性能显著高于后者”。

此外,他们还观察到模型规模的一个趋势:“语言模型规模越大,用视觉语言和机器人任务进行训练时就越能保持其语言能力——就数量而言,5620 个参数的 PaLM-E 模型几乎保持了所有的语言能力。 “

PaLM-E 是迄今为止报道过的规模最大的 VLM。尽管只接受过单一图像提示的训练,我们观察到了类似多模态思维链推理与多图像推理等涌现能力的出现。虽然这不是我们工作的重点,但PaLM-E 在 OK-VQA 基准测试上设定了一个新的 SOTA(最佳表现)。

——Danny Driess

研究人员声称,尽管只接受了单图像提示的训练,PaLM-E 也已经展示出了涌现能力,比如多模式思维链推理(可让模型分析包括语言和视觉信息在内的一系列输入)与多图像推理(用多个图像作为输入来做出推理或预测)。就这个意义而言,随着深度学习模型慢慢变得越来越复杂,PaLM-E 似乎会继续给人以惊喜。

谷歌研究人员还计划探索 PaLM-E 在现实世界场景的更多应用,比方说家庭自动化或工业机器人。他们希望 PaLM-E 能够激发更多关于多模态推理与具身化 AI 的研究。

“多模态”这个词现在很热,我们将来会听得越来越多,因为各大公司都想做出看起来够像人类一样执行一般任务的通用人工智能。

译者:boxi。

版权声明:【除原创作品外,本平台所使用的文章、图片、视频及音乐属于原权利人所有,因客观原因,或会存在不当使用的情况,如,部分文章或文章部分引用内容未能及时与原作者取得联系,或作者名称及原始出处标注错误等情况,非恶意侵犯原权利人相关权益,敬请相关权利人谅解并与我们联系及时处理,共同维护良好的网络创作环境,联系邮箱:603971995@qq.com】

0条评论

    蘑菇棺材?100%纯天然!菌丝分解?

    真的有点过于环保了!荷兰一家名为Loop生物科技公司推出了一个生物降解棺材,一旦埋葬,仅需45天就能
    LOGO大师 0评论 2024-03-28

    AIGC竞争打得火热,“能在具体场景解决问题”的AI才有未来?

    今年以来,如火如荼的AIGC领域出现了众多不同的声音。前不久,某中国著名投资人在一个行业论坛上表示:
    佳丽 0评论 2024-03-24

    10例——3D打印创意家居

    3D打印技术于家居产品设计中的运用丰富了传统家居产品的形态,能够在几乎完全摆脱传统家居形态的条件下,
    小D 0评论 2024-03-15

    10例——3D 打印假肢

    假肢在定制时效果最佳,因此假肢生产缓慢且成本高昂。3D 打印是生产假肢的一种替代方法,一种经济实惠的
    小D 0评论 2024-03-15

    3D打印创新汽车

    3D打印技术在汽车零部件领域更广泛地应用已成大势所趋。它可以缩短汽车研发周期,同时也能节约汽车生产的
    小D 3D打印科技 0评论 2024-03-15

    AI合成的“俄罗斯美女”,正猛赚中国人的钱

    自从“假靳东”骗姐姐钱的生意走红后,收割中老年群体,几乎成了社交平台上的赚钱之道。尽管平台一直试图取
    不语 0评论 2024-03-12

    不管“天空”多远,我们踏实赶路吧

    近段时间,OpenAI发布了其首个人工智能视频生成模型Sora。它以日语中的“天空”一词命名,寓意着
    北京日报 0评论 2024-03-03

    Sora来了,会砸掉谁的饭碗?

    OpenAI官网截图输入寥寥数语便能生成效果炸裂的60秒视频!美国开放人工智能研究中心(OpenAI
    新华社 0评论 2024-02-29

    AI上国内团队好像被甩开了?差钱?差人?

    本文来自微信公众号:琢磨事(ID:zuomoshi),作者:老李话一三,题图来自:视觉中国当我们还在
    虎嗅APP 0评论 2024-02-24

    谈谈Vision Pro的长期意义:十年内数字内容将重塑物理空间

    本文来自微信公众号:琉璃创造(ID:llcreator),作者:徐梧(XR天使投资人、猫眼电影创始人
    徐梧 0评论 2024-02-08

    11款——牙科3D打印的最佳树脂材料

    在现代牙科行业中,3D打印是一种舒适的解决方案。这种快速、个性化且价格合理的应用适合牙医和消费者,而
    小D 0评论 2024-02-08

    7款——3D打印灯具

    每年都有成千上万的3D打印照明灯具出售,因为它们易于定制,并且是传统制造的可持续替代品,而且它们很漂
    小D 0评论 2024-02-08

    诺基亚获得2023年度最佳发明?

    你好你好,我是做设计的大美工。年关将近,又到了各种跨年演讲、复盘、总结的时刻。近期《时代》杂志也评选
    @大美工 0评论 2023-11-30

    200款——时代周刊评选2023年最佳发明

    3Dzellerfeld 3D打印鞋zellerfeld公司首席执行官和创始人之一Cornelius
    小D 0评论 2023-11-23

    让人落泪!流失百年文物这样“回家”,这所高校立功了……

    流失海外的百年文物借助3D打印技术“回家了”!据河北新闻网,历时三个月,河北邯郸响堂山石窟百余年前流
    中国青年报 0评论 2023-11-20

    艺术与设计APP

    • 最新最热
      行业资讯
    • 最新最热
      行业资讯
    • 最新最热
      行业资讯