Thread Reader
indigo

indigo
@indigo11

Mar 8, 2023
5 tweets
Twitter

昨天 Google 发布了一款拥有 5620 亿参数的大模型 PaLM-E,项目网站 palm-e.github.io 这是一个多模态的 LLM,它可以接受的数据包括: - 语言(language) - 图像(images) - 场景表征(neural scence representations) - 物体表征(object representations) PaLM-E是一个仅有解码器的 LLM,在给定提示的情况下,自动生成文本 Tokens。 为什么被称为 PaLM-E,那是因为使用了 Google PaLM(2022 年的 LLM)作为预训练的语言模型,并使其成为 Embodied。 为机器人感知世界建立的“基础模型”将需要跨越不同环境大量数据集,那些虚拟环境、机器人交互、人类的视频、以及自然语言都可以成为这些模型的有用数据源,学界对使用这些数据在虚拟环境中训练的“智能代理(Agent)”有个专门的分类 EAI(Embodied Artificial Intelligence)🧵

LLMs 已经被证明可以完成复杂的任务。然而,要在现实世界中实现“推理”,例如用于机器人问题,则提出了新的挑战。PaLM-E 在语言模型之上,直接将现实世界的连续传感器模式纳入语言模型,从而建立单词和感知之间的联系。PaLM-E 的输入是多模式的句子,这些句子交织着视觉、连续状态预测和文本输入编码。将这些编码与预先训练好的大型语言模型一起进行端到端训练,展示出了一系列与机器人相关的多模态信息能力,包括动作、感知、视觉基础上的对话和规划。
视频展示了 PaLM-E 如何在真实的机器人上用于规划和执行长期任务,其中包括多个规划步骤,以及利用相机的视觉反馈。这些结果都是使用相同的训练模型获得的!
其实 DeepMind 在去年五月就发布了类似的多模态智能代理模型 Gato - 它把来自不同任务和模式的数据,序列化为一个扁平的标记序列,然后分批处理,并由一个类似于大型语言模型的转换神经网络来处理输出 deepmind.com/publications/a… 看来 Google 还是太有钱,这么耗资源的研究竟然不同部门各干各的 。。
最后,大家都在思考语言模型之后是什么? 如果把智能系统比喻成操作系统,那么 LLMs 有望担负起操作系统内核的责任,其他的数据就像系统组件一样,通过多模态(MultiModels)的方式与内核融合,然后再通过智能代理(Agent)安装到可以被自动化控制的机械里面,最终我们周围所有的设备都可以智能!
indigo

indigo

@indigo11
Co-founder of Gravity Venture / ex-Weibo. Disruptive Technology Believer, Writer, Coder, Gamer & Amateur Cook. Seeding cool things, Twitter is my notebook …
Follow on Twitter
Missing some tweets in this thread? Or failed to load images or videos? You can try to .