文 | 田哲
裁剪 | 苏建勋
2025岁首,咱们了解到一件事,国内具身智能独角兽“智元机器东谈主”(即是B站着名UP主“稚晖君”当CTO的那家公司),在上海,建了一座“数据采集工场”(简称“数采厂”)。
这是啥?为啥建?怎样采?一系列狐疑涌上咱们心头,咱们决定去看一看。
天然了,在去之前,咱们对一家“数采厂”的使命历程,有一些相等刻板的念念象——在堆满干事器黑盒子的阴晦房间,挂着黑眼圈、发量堪忧的程序员,机械地敲着键盘输入代码……
错错错!当《智能袒露》抵达智元机器东谈主位于上海浦东的数采厂,发现执行和咱们的念念象,判然不同!
绝不夸张地说,这皆备是好意思国电影《》的片场!

《星球大战》电影海报;图源齐集
在这座3000平素米的数采厂中,不同主题的房间占据了工场的绝大部分面积,每个房间都经心复原了执行生计的物件布局,机器东谈主就在不同的场景中履行不同任务。
在卧室中,机器东谈主乖巧地学习叠穿戴。
机器东谈主学习叠穿戴;图源:智元机器东谈主
在餐桌前,机器东谈主把餐具挨个摆放整皆。
机器东谈主摆放餐盘;图源:《智能袒露》拍摄
机器东谈主还要学会打餐千般菜肴,况且不会手抖。
机器东谈主正在用勺子舀鸡蛋;图源:《智能袒露》拍摄
而在商超收银台前,机器东谈主一只手拿扫码器,另一只手拿着商品扫码。
智元机器东谈主正在学习商品扫码;图源:《智能袒露》拍摄
参不雅齐备后,《智能袒露》见到了数采厂细腻东谈主姚卯青,他亦然智元机器东谈主具身家具线总裁、征询院履行院长,细腻数据初始具身智能家具研发。
此前,姚卯青曾在Waymo、蔚来汽车等公司细腻研发感知算法、端到端大模子。
姚卯青告诉《智能袒露》,机器东谈主每完成一个行为,就异常于一条数据,数据将通过机器东谈主的主机上传至云表,智元机器东谈主团队将欺诈这些数据教悔机器东谈主的大模子,从而让机器东谈主实在掌执一项手段,比如冲咖啡、熨穿戴等。
为了让机器东谈主快速学习手段,智元为它们安排了一双一教导安分——数据采集员,他们都是年青有活力的小哥哥密斯姐,为了更好地教机器东谈主完成行为,采集员也需要肢体合营,行为程序。
数据采集员们手持开导,手把手地松手机器东谈主完成抓、执、放等行为。有时他们也会头戴VR开导,更精确地让机器东谈主师法学习东谈主类行为。
据了解,现时智元数据采集工场投放了近百台机器东谈主,日均采集3-5w条数据。
而为了让机器东谈主更快在不同环境中掌执尽可能多的手段,智元数据采集工场模拟了家庭、零卖、管业绩、餐饮、工场五个场景。
在这里,你能发现商超内不仅有各样零食,还有葡萄酒、烟草,致使连蔬果的价格也标好了。

智元机器东谈主模拟的商超;图源:《智能袒露》拍摄
也有一批机器东谈主散布在各自“工位”,在桌前学习粗略地叠穿戴等手段。

机器东谈主们在工位学习不同手段;图源:《智能袒露》拍摄
据了解,数采厂面积还将增多1000平素米,可增多更多场景的同期,也能凭据客户需要定制化模拟场景。
不外,现时行业内罕有打造如斯千般场景的机器东谈主公司,一个问题随之而来:智元机器东谈主下决心打造数据采集工场,这一过程是怎样张开的?
为具身智能机器东谈主,打造数据养料场
关于大巨额初创公司而言,将高额资金建筑一座工场用于数据采集,风险无疑是重大的,而智元机器东谈主似乎莫得彷徨,只是用了一个多月就完成搭建数据采集工场。
促使智元机器东谈主不吝高资本打造数采厂,这背后,行业现有数据量在供给侧上的重大空缺。
2024年6月,智元机器东谈主决定研发机器东谈主具身智能大模子,这需要海量数据以教悔大模子。
姚卯青告诉《智能袒露》,机器东谈主通过数百条数据学会一个手段,这些行为时常都是长程任务,比如冲泡咖啡,ag百家乐真的假的熨穿戴等。
他们曾试图寻找行业内的开源数据库,但发现高质地、协调神态的数据简直不存在。即使行业内开源了百万条由确凿机器东谈主齐集的教悔数据集,然则这些数据骨子上由不同公司、不同型号规格的机器东谈主采集,数据质地较低,够不上智元的条目。
姚卯青默示,不同传感器和形态的数据互异过大,将收缩合座教悔后果,比如一个六轴机械臂的数据在七轴聪慧手机器东谈主上简直无法复用,因此需要协调程序的数据。
而让智元下决心建筑数采厂,这个过程也很粗略。
姚卯青默示,智元机器东谈主采集了几千条数据用于教悔算法,固然能让机器东谈主告成完成某个行为,然则无法泛化——若是转换物体种类、神采致使光泽,都将影响机器东谈主再次完成相同的行为。因此智元机器东谈主决定建筑工场大边界采集数据。

不临幸间的机器东谈主正在采集数据;图源:《智能袒露》拍摄
数采厂将来将源源延续为机器东谈主学习提供数据养料。据了解,智元数据采集工场插足使用两个多月,就采集了超百万量级真机数据集,采集任务超一千种,每个任务都包含几百条数据,一些高出难的长程任务可达几千条。
“不久后咱们将领有超千万条数据。”姚卯青笑着说。
探寻机器东谈主的Scaling Law
在采集数万条机器东谈主重叠行为后,智元机器东谈主获利了一些或然之喜:机器东谈主好像在未经教悔的情况下,凭据条目松手倒水量;只教了机器东谈主几十次,就能学会叠裤子。
这恰是智元机器东谈主念念要打造的机器东谈主——好像自主招引东谈主类教导和外部环境,并能得当复杂的环境。
智元但愿机器东谈主好像更换不同品牌、型号的咖啡机配件;图源:《智能袒露》拍摄
当年数十年,机器东谈主的松手时常依赖东谈主们的预设规定,向机器东谈主输入情况描写以及搪塞方式的规定,机器东谈主在相应情况下完成操作。关系词机器东谈主遭受的情况奥妙无穷,难以依靠提前输入规定就能让机器东谈主搪塞悉数情况。
在大模子应用爆发后,让机器东谈主从冰冷的躯体有了智力,好像招引全国和东谈主类。而智元机器东谈主正在研发的,是具备端到端大模子的机器东谈主,通用智力更强且反映速率更快。
机器东谈主从接收教导到完成行为时常有三个方法:感知外部环境,作念出决议、松手肢体履行任务,信息在这一链条传递中可能出现失真,从而影响机器东谈主完成行为。
但端到端大模子,不需要分模块,更不依赖精确测量,就像东谈主类超车前,不会下车测量两车之间的距离,再进行超车。
智元机器东谈主对端到端大模子机器东谈主的设念念是,机器东谈主好像接收东谈主类的复杂教导,比如让机器东谈主从边远取来手机,或者从雪柜里拿一包薯片。这些教导不仅进修着机器东谈主对任务的招引智力,还条目机器东谈主好像识别物体,并完成出动到相应方位、取物,复返,提交物品。
然则达到这一现象并进击易。姚卯青默示,需要不休向大模子投喂数据,数据量越大,大模子在某一场景证实会更接近东谈主类,他预估的数据量为几千万条到1亿条,机器东谈主的Scaling Law远未到来。
《智能袒露》了解到,机器东谈主需要软硬件皆集,仅有其中之一都难以让机器东谈主时代马上发展。好意思国的硬件资本较高,因此好意思国机器东谈主初创公司大多只研发算法。中国已有供应链上风,皆集数据和自研的硬件,会让算法、硬件、软件快速迭代。
姚卯青信服,中国机器东谈主时代的合座进程已与好意思国不相高下,因为好意思国的东谈主工资本比国内跨越十倍,还得从中国采购千般零部件。
智元机器东谈主用更低的资本和高效的迭代速率,拓展了场景模拟和数据采集边界,那些在好意思国机器东谈主公司看来“牛年马月”的时代,正在中国的数据采集工场不休流淌的数据中,极少点接近成为执行。