【财新网】机器人ai引入大语言模型,即使遇到见过的新情况,也能理解。谷歌近日推出ai机器人模型robotics transformer 2(rt-2),作为视觉-语言-动作(vision-language-action,vla)模型,rt-2配备了大语言模型技术,直接从互联网学习知识,可以识别物体、理解语言命令,然后做出有逻辑的动作。
rt-2主要有三种能力:符号理解(symbol understanding)、推理(reasoning)和人类识别(human recognition),依靠这些能力,机器人可以理解“捡起即将从桌子上掉下来的袋子”或“把香蕉移到2加1的和的标志那里”这样的命令——其中的物体或场景是原有机器人数据中从未有过的,机器人模型使用了互联网的知识,最后完成操作。