多模态大模型正在给智能硬件带来革新契机。
机器人、XR等硬件产品本质上都具备智能系统属性,这些智能系统的感知、控制、决策等底层能力都来自AI。而在多模态大模型出现后,AI在理解人、和人交互方面的能力上将再进一步,不再只依赖语言和文本,而是可以更好地识别肢体语言、面部表情、语气等。
有研究显示,面对同样的任务,数据维度单一的小模型的运行成功率只有20%-50%;而如果用大模型去运行,成功率可以高达75%以上。这证明在多模态数据结合大模型加持下,机器人的感知、决策、人机交互、家庭复杂场景内自主移动、复杂任务成功率等各方面能力有望全面提升。
虽然多模态大模型对机器人性能将有所提升已成共识,但具体而言,新一代AI会为智能系统解决哪些悬而未决的问题?在多模态大模型的加持下,智能系统将生长出哪些能力?笼统的判断意义不大,过去几个月我们尝试推演了其中的技术突围和产业落地可能。本期「通向AGI之路」中,蓝驰创投合伙人曹巍将与我们共同想象新一代AI在智能系统的感知、控制、决策、交互等环节上的进化可能。
01 感知系统
未来,多模态数据的采集与全新的AI模型架构结合,将实现更高效的多维数据并行处理,从而更好地感知复杂、动态的外部环境及理解任务。为什么要强调复杂、动态的外部环境?现阶段,机器人广泛应用的工厂场景实际上是简单、边界信息固定的场景,在这种场景里大模型能提升的效率有限,传统的定向分析模型已经很足够;所以大模型最令人兴奋的是帮助机器人打入复杂、开放、与人交互的探索性场景。
在具体的感知层面,多模态大模型有可能在以下三个方向带来提升——
| 进一步降低前端硬件设备要求
XR、机器人给感知系统的边界条件是相对苛刻的,而前端的能源和算力又有限,这是智能硬件目前面对的重要瓶颈。未来,AI在感知层可持续降低前端硬件设备的要求,提供感知适应范围(抗干扰,抗噪),提高鲁棒性和泛化性。
降低前端硬件设备要求需要考虑的问题有两个:一是怎么做得更小更灵活,二是算力怎么在云端和边缘端分配。当前的边缘侧缺乏AI能力,所以将算力都集中给了云端。如果未来AI能直接赋能边缘侧,云端算力的压力将减轻。但是云端与边缘侧如何分配最优,取决于边缘的运算量级及边缘侧AI能赋予的技术深度。
边缘端会发生部分实时的端到端闭环训练,比如感知侧收回来的数据标好标签后放到云里。但未来可能是云端的大模型基于大量机器人的实时训练进行推断,云边端的算力配合会更加一体化,更新速度可能会非常快。
在工业场景下,移动机器人降低前端硬件设备要求的方式还有一个:采用3D视觉感知技术。以蓝芯科技为例,这家公司的产品搭载蓝芯-移动机器人深度视觉系统LX-MRDVS,使机器人具备基于3D视觉的定位导航、避障、对接、抓取功能。相对于磁条、二维码、反射板等标记,3D视觉感知能力使得蓝芯的产品能做到便捷部署、智能建图,不依赖人工标记,也不受密集的人流、物流影响。
能够理解图像的多模态大模型无疑会给3D视觉感知技术更大的助力。在未来,基于3D视觉感知技术的移动机器人或许能实现语义理解,机器人的环境识别和理解能力也能得到增强。这样现有单线激光雷达导航机器人就能被逐渐替代,从而普及基于3D视觉感知的AMR。
未来的车、机器人等智能系统会越来越像人,不再需要配备一堆传感器。最优秀的系统其实就是人体,只不过目前还做不到。
| 进一步降低人工标注成本
数据的标注和训练成本问题是自动驾驶场景中非常具有挑战性的问题。训练车收集来的原始数据是没有标记的,需要由第三方标记员、或者标记软件在辅助或半辅助的情况下去完成。
但随着AI的发展,未来可能会有实时感知和实时自动标记技术,会有一套更优秀的算法去解决数据采集的成本、质量、效率问题,同时把实时采集的数据打标签后喂到自动驾驶模型中。借助AI模型,将采集到的数据在感知侧,直接完成标注,而无需将海量原始数据传输到CPU、GPU来完成标注,大幅节省了算力开销且降低延时。
| 革新感知的方式
目前“注视点算法”是非常明确地将被应用到XR领域的AI算法模型。人眼在凝视时分成三个部分:中心区域、低分辨率区、周边区域。大约30-40 度左右的区域是分辨率最高的,周边的地方偏模糊,人脑在处理信息的时也分层次。这一点会影响人眼在XR设备中看到的画面。
注视点算法的作用就是基于注视点跟踪和眼动追踪,去判断用户在虚拟世界里看什么,目光的焦点会渲染得清晰一些,没有看到的地方就会渲染得模糊一些。
以睿视科技为例,这是一家以AR光学和数字离焦技术为核心的儿童近视防控平台公司,主要的产品是一台具备离焦功能的光学屏幕,当儿童通过屏幕上网课、看动画时,屏幕内独特的光路设计使光线在视网膜成像时实现近视离焦的效果,从而达到近视防控的目的。而在感知侧引入眼动追踪设备,实时追踪到用户在看什么,就可以针对视线焦点的部分内容进行光学离焦以及画面渲染,而不需要对全局进行离焦和渲染,从而降低了对前端设备的算力要求,即使是小算力的硬件设备也能够实现良好的使用效果。
AI对感知系统的提升还可能让智能硬件、健康设备在感知的同时就形成闭环。比如助听器,目前绝大部分产品只是简单粗暴地将所有声音分类为言语声和噪声,保留言语声并且抑制其他声音,因此声音显得不自然,且有10ms以上的延迟,听感不佳。但未来在AI的辅助下,深度神经网络可以对前端的外界声音输入信号进行处理,辅以全向声音技术,让大脑听到的声音接近自然听觉,并且大幅降低声音延迟(6-8ms)。甚至还可以针对用户所处的不同环境,进行个性化的声音还原适配,进一步提升用户的听觉体验。
还有一直容易忽略的数据感知。像机器狗的四条腿上都有电机,它的四条腿在地上走时,一方面测量每一条腿和地面之间的高度,获取高度数据;另一方面确定地面和狗的小爪处于什么样的摩擦状态。机器狗收集这些数据,这些数据又会帮助机器狗决策路径,规划如何行动。
02 与控制、决策和交互系统的结合
| 控制
大模型对于机器控制上的提升将是非常明显的。
程天科技是非常有意思的一个案例,作为一个外部集群系统,含有完整的感知-控制-决策。它收集的IMU数据、压力传感器数据、力控数据在帮助患者康复时每一步的步幅、速度、步态周期以及肌肉力量的力矩输出。这个过程中,所有数据都会从感知端收集到计算处理平台,通过AI算法、根据每一个患者的康复状态,给出步态建议。
在这个场景当中,固定的预训练模型是不够的,需要基于最新的数据。因为人的康复状态每天都在变化,为了达到最优的治疗效果,每一次的方案都可能变化。这里就有Transformer的用武之地:传统的rule base并没有充分发挥机器人的决策系统价值,而是引导式的动作体系,基于Transformer的机器人能够根据rule的引导以及result的反馈进行result的迭代,并深化rule的框架,让result更优。
一直以来rule base的机器人解决的都是简单的商业场景,无法解决复杂场景,是因为rule base无法预判,需要有强行业know-how的人持续给机器叠加rule,开发周期很长。假如未来算力以及Transformer模型足够强,或许会出现这样的场景:只要把复杂环境的数据喂给机器人,短周期就能开发出来。
谷歌做的Robot Transformer就是运用大量的多维数据,完成机械驱动后,会生成相应的标签体系和评价机制,去优化机器人的效果。Robot Transformer对机器人最直接的提升是解决灵巧手的问题,整个算力以及前置模型都大量地简化,成本会急剧降低。也不需要基于大的算力平台,放在一般的终端也能用。灵巧手今后的方向就是小型化、能耗降低、逻辑简单,具备自学习能力。
与此同时,大模型驱动的机器人会在安全柔性和容错可适应性方面有更高发展。在智能机器人进一步贴近普通用户,甚至在按摩理疗、人机辅助等场景下直接产生物理接触等强交互的情况下,机器人操作臂和末端执行器的绝对安全性和对突发事件的适应性就变得至关重要。
以万勋科技Pliabot技术为代表的柔韧机器臂为例,通过采用多闭环控制,万勋Nimbo系列柔韧臂可以实现超过自身自重的末端负载、和匹配视觉定位的亚毫米级末端精度,在安全性、作业能力和经济性之间形成了新的平衡点。借助大模型生成的基于多模态融合的规划命令,柔韧臂在准确有力的执行操作命令的同时,可以在最贴近用户的执行端提供安全性与适应性的最后一道屏障。
此外,大模型加上以柔韧臂为代表的轻量化柔性硬件,将催生一系列软硬件综合方案,完成机器人从理解、拆解、规划、驱动、到执行的完整闭环,这就相当于给大模型驱动的智能“大脑”匹配了灵活、有力、安全、可负担的“身体”,从而快速推动多场景下的落地应用。
OpenAI的最新模型在机器人领域的落地有很多场景:五指手、摔跤比赛、开源的深度强化学习平台、自适应的机器人控制系统、以及机器人的仿真。但是这些能力提升是否能够在产业侧和场景侧帮助我们打磨出好产品,还是一个问号,产业落地还是要回到团队对场景痛点和难点的理解。
| 规划与决策
在规划层,大模型可以比现有技术方案更好的植入多种先验知识库,与现场随机性相结合,进行多模态智能融合,最终获得兼顾了历史经验积累和现场随机变化的可执行机器人规划命令。这将极大的推动机器人在通用智能方向上的快速发展,让智能机器人更快的理解和适应开放式的环境和用户命令,完成愈发丰富的任务。
在决策层,本身有单体智能和群体智能的区别。单体智能是一个围绕结果的智能决策,群体智能就像将一个工厂智能化,看起来是很多单站集合而成的,但从本质上来讲,工厂本身就是一个巨型机器人,优化的目标只有一个。
它要考虑的因子包括机械臂或设备是否疲劳、过热,是否需要休息;生产不同批次、品种的产品时如何基于每一个品种工序和中间的衔接去做不同的调度;怎么样确保订单的具体质量,并在最后检验环节能够有真正质量的闭环,达成基于群体决策最优整合目标。
目前单体决策是比较成熟的,但从控制走向工艺这一侧,其实还有很大的优化空间。传统基于工艺的决策是将工人对工艺的认知经验通过算法或工艺参数要求导入到机器人单体,AI的优势是能够基于工艺要求框架,结合工艺场景的大量数据模型,持续形成基于工艺要求的自训练算法并持续优化,从而形成更精准的决策系统。
| 交互
Transformer所代表的Learning-based方法会给机器人的人机交互界面层带来全新的范式。在多模态大模型出现后,人与机器人的交互会有新的可能:未来没有任何机器人编程经验的普通用户可以用自然语言和开放式命令来直接操作机器人,给机器人下达复杂、模糊,甚至是问询式的指令,由大模型驱动的交互引擎来理解分析用户目标,获得准确的可执行目的,进行任务拆解并后台分发转移给机器人规划层进行任务规划和执行。
在交互领域有比较重要的两个可能。一个是神经辐射场(NeRF),NeRF使用2D图像训练神经网络,预测全新视角下的图像,从而完成场景渲染,是一种场景3D信息的隐式表达方式。NeRF带来了新的3D交互方式,也为3D内容的生成提供了新的可能性。即使其目前在训练/推理效率、处理动态物体等方面存在一定缺陷,但它带来的全新应用场景的可能性也值得我们期待。
另一个就是LLM(大语言模型),它会助力AR眼镜成为随身的AI助理。AR眼镜具备第一视角的近眼显示能力,在ChatGPT等大模型的赋能下,可以实现语音交互、实时翻译、导航、购物建议等功能。
| 算力平台
在算力方面我们得出结论是:不同的平台,不同的场景,一定会有对应的算力平台。比如说眼镜对应XR2,车对应Orin,云端对应A100。未来基本上就是这样的架构,不会出现一款芯片或者是计算产品解决所有的问题。因为在不同场景下的功耗是不同的,针对电源、系统能量的管理是不同的,任务的复杂度和场景的状态也不一样。
03 工业场景的提升
我们一直在想象,未来的工业场景能否把底层系统打通在一个平台上,上层可以直接调用ChatGPT跟它自然交互,再去挖掘问题所在?
此前工业互联网的收效有限,一个核心原因是他们不是信息化Native,还是要靠外装设备。如果数据来自硬件自带的AI系统,能自己形成分析反馈,将可以实现有价值的预测分析,这对实现工厂的单站智能非常重要;通过这些智能单站连成线之后,可以形成闭环的整厂数据链路,从而可以构架出整厂的AI模型数据。如果无法拿到原生数据,能用后装传感器抓到数据也可以,吉利汽车有一个特别厉害的自动化产线,已经在用Transformer和类ChatGPT模型去理解工厂的问题在哪里。
AI对工厂预测性维护的提升还是有限,因为工业里面环环相扣的工艺很多,产品生产过程琐碎。最重要的是如何做到自适应工厂单工艺以及全局的复杂状态。工业互联网的痛点是设备的每个参数都要单独测试,一个设备只能干一件事,超出这个场景,设备算法就不一样。所以我们一直在设想未来的机器人应该就像流水线一样,能非常快地对齐认知,这就需要AI既能掌控单工艺制造过程,又具备全局大脑决策功能。
特斯拉工厂其实就是一个大机器人。整个传感器数据是全栈、全链条、全体系共享。但底层都有传感器,有智能化、数字化基础。这些都需要原生数据,打补丁是做不到的。