让操纵,事先不做任何编程or训练,能搞成啥样儿?
答案是:太猎奇了 !
这不,要求机器人表演在昏暗电影院里狂炫爆米花,却突然发现吃的是隔壁陌生人的?。
在GPT-4的操纵下,机器人笑容凝固,尴尬得摇头扶额后仰:
但在尴尬之余,竟然还不忘再抓一把塞嘴里???
又像是要求机器人弹吉他。
GPT-4略思考一番,开始操控机器人活动一番手指、随后疯狂甩头,好像是有点摇滚内味儿。
但仔细一看,甩头的时候,手指就完全不动了……
你要说这是神叨叨的地摊先生在掐指一算,好像也没什么不对(手动狗头)。
总结一系列动作来看——
相比波士顿动力人形机器人,一举一动均由人为程序精细操纵,这个GPT-4直接操控的机器人,表情狰狞,动作诡异,但一切行为又符合Prompt的要求。
这一连串GPT-4操控机器人的视频po到网上后,不少网友直呼恐怖谷效应犯了:
甚至吓到了20年工龄的机器人技术专家:
还有网友调侃:看起来就像舞台上的我一样。
但也有网友认为,人形机器人能通过GPT-4来操纵,已经是很不可思议的事情了。
原来,这是由GPT-4驱动人形机器人的研究,来自东京大学和日本AlternativeMachine公司。
依靠这项研究,用户无需事先给机器人编程,只需语言输入、也就是动动嘴皮和GPT-4聊上一会儿,就能让机器人根据指令完成行动。
一起来看看这项研究的更多细节和背后原理。
不编程,也不训练,拿GPT-4当脑子,这个人形机器人Alter3,还能做出哪些令人皱眉却又合理的动作?
不如给个指令,让Alter3假装自己是个?吧!
它倒是也懂一秒入戏,张大嘴巴、双手前伸。
但不知道为什么,微张的双唇和空洞的眼神,让人感觉它更像林正英都要直呼内行的僵尸:
如果要求它自拍,Alter3倒也当场能来个怼脸大头照。
就是不知道是被原相机里的自己丑到,他的表情并不享受,反而痛苦似的将自己眼睛闭了起来:
再来听个摇滚,music走起。
你说它频频点头是在追随节拍,一定没错;但你要说它是毕恭毕敬站在面前,说啊对对对对对,似乎也贴切极了(手动狗头):
在所有放出的视频demo中,喝茶这个行为最不奇葩怪异,甚至像是在演我:
上班上到生无可恋的时候,喝茶就是这么要死不活的。要咱说,送到嘴边了才张口,这茶不喝也罢。
作为人形机器人,Alter3做出人类行为有点子搞笑,那……不如试试别的?
比如,演绎一条受到音乐感召后摇摆身姿的蛇:
看到了吗,没那么柔韧,但确实在尽它所能扭动躯干了,可以说是一条蛇的发癫版本.gif。
这么看下来,直接把人形机器人和GPT-4集成这件事,可以干,但美观性属实不太够啊……
其实回顾一下,让大模型和机器人结合这事儿,科学家研究者们今年已经忙活了一整年。
不过,通常做法是做更多的训练,然后尝试将图像语言大模型的能力和知识迁移到机器人领域。
包括微软的ChatGPTforRobotics,谷歌的PaLm-E、RT-1、RT-2,还有VoxPoser、BoboCat等众多工作,都走的是这个路线。
其中,轰动一时的谷歌RT(RobotTransformer)系列效果贼棒,但谷歌训练它就花了17个月,并收集13台机器人的13万条机器人专属数据——一般团队很难有这个资金和精力。
年中,李飞飞团队的具身智能成果,则百尺竿头更进一步,通过将LLM(大语言模型)+VLM(视觉语言模型)结合在一起,机器人与环境进行交互的能力进一步提升。
这种思路下,机器人完成任务无需额外数据和训练。
但是李飞飞团队给出demo里的硬件,本体还
标签: 4、 人形机器人、 GPT、本文地址: https://yihaiquanyi.com/article/61eddf24af8fe474ebc6.html
上一篇:探索教育的智慧与方法探索教育的智思妙想20...