特斯拉(TSLA.O)正在借鉴一套久经考验的蓝图来训练其人形机器人。据知情人士透露,这家电动车制造商在6月底告诉员工,Optimus项目将更多地专注于“纯视觉”方法。
此前,特斯拉曾使用动作捕捉服和虚拟现实头显来记录人类操作员的数据,并远程操控机器人。如今,公司将主要通过拍摄工人执行任务的视频来训练机器人,比如教它如何拾起物体或折叠T恤。
知情人士称,公司表示,摒弃动作捕捉服和远程操控将让团队能更快地扩大数据收集规模。
这一转变标志着特斯拉机器人战略的重大调整,使Optimus与首席执行官马斯克长期坚持的信念保持一致,即人工智能只需通过摄像头就能掌握复杂任务。特斯拉一直用类似的方法训练其自动驾驶软件。
这一变化发生在Optimus项目主管米兰·科瓦奇(Milan Kovac)辞职后不久。知情人士透露,AI主管阿肖克·埃卢斯瓦米(Ashok Elluswamy)已接管该项目。
动作捕捉和远程操控是机器人行业的标准做法。例如,领先的机器人公司波士顿动力(Boston Dynamics)就曾用远程操控来训练其Atlas机器人。在训练过程中,工人穿上动作捕捉服完成各种任务,数据随后被输入到机器人中。动作捕捉服也可用于远程控制机器人。
目前还不清楚特斯拉未来是否会重新优先考虑动作捕捉和远程操控,或是利用视频数据在此前收集的信息基础上继续开发。
人类与机器认知研究所高级研究科学家罗伯特·格里芬(Robert Griffin)称,大量远程操控数据能让机器人通过与环境的物理交互进行学习。他表示,仅依赖视频数据很难让机器人将视频中的动作准确转化到现实世界。
“如果你只是用视频数据,就没有直接的物理交互。”他说。
叠T恤与捡东西
马斯克于2021年首次宣布特斯拉计划研发一款名为Optimus的人形机器人。这位亿万富翁称,该机器人最终将能胜任工厂劳动和照护工作等任务。
去年,公司曾招聘“数据采集操作员”。这类职位涉及执行和记录基本的家务任务。招聘启事显示,操作员需要长时间穿戴动作捕捉服和虚拟现实头显。
直到6月底,项目还包括通过远程操控和动作捕捉服来训练Optimus。知情人士称,工人们花费大量时间处理服装和机器人本身的问题,限制了团队可收集的数据量。
自训练方式转变以来,工人们开始用一套由特斯拉自制的五个摄像头来记录自己的动作。知情人士称,这些摄像头安装在工人佩戴的头盔和沉重背包上,向各个方向拍摄,为AI模型提供精确定位环境的数据。
佛罗里达农工大学与佛罗里达州立大学联合工程学院机器人实验室主任克里斯蒂安·胡比基(Christian Hubicki)表示,这些不同角度的摄像头可能让特斯拉采集到更细微的细节,“比如关节和手指的位置”,并更好地定位机器人。他补充说,这些视频也可能用于补充此前通过远程操控收集的数据。
工人在训练时会收到具体的任务指令,尤其是在手部动作方面,以确保动作看起来尽可能接近人类。有一名员工表示,他们可能会花数月时间反复执行同一个简单任务。
谢菲尔德大学机器人专家乔纳森·艾特肯(Jonathan Aitken)说,特斯拉可能需要找到一种方法,让Optimus通过一些可泛化的动作来学习各种任务。
“在这种规模下,他们必须有一套通用的动作,否则训练所有任务将耗费极其漫长的时间。”艾特肯说。
他补充称,特斯拉可能会采用类似于Physical Intelligence公司的策略,该公司通过向机器人输入大量演示数据,让它们学会可迁移的技能,并灵活应用,而不是死记硬背单一任务。
“非常特斯拉式的机器人研发”
这一新策略与特斯拉训练自动驾驶软件的方式一致。其他自动驾驶公司使用激光雷达和毫米波雷达等传感器来训练软件,而特斯拉主要依赖摄像头。
公司利用数百万辆配备8到9个摄像头的特斯拉汽车收集数据。马斯克曾表示,特斯拉在中国推出辅助驾驶软件,是在用公开的亚洲街道视频训练AI系统后实现的。
马斯克在今年1月的财报电话会上承认,“Optimus人形机器人的训练需求,最终可能至少是汽车所需的10倍。”
“这是一种非常特斯拉式的机器人研发方式。没有其他公司在尝试以这种规模来做。”艾特肯说。“他们需要像训练汽车一样庞大的数据量。”
俄勒冈州立大学AI与机器人专家艾伦·费恩(Alan Fern)表示,训练Optimus对特斯拉而言甚至比研发自动驾驶汽车更艰巨。
“驾驶只是一个任务。”他说。主要依靠视频学习“要求机器人既要理解视频中发生的情况,又要具备完成任务的技能。有些东西可以通过观察学会,但有些则需要在模拟器或现实中亲自练习。”