量子位 | "大众年夜众号 QbitAI

本周,CVPR 2024正在美国西雅图拉开序幕。
今年CVPR论文投稿数再次创下新记录,可想而知本届会议的火热。

从研究主题来看,具身智能这一大热点值得关注。

黄仁勋在COMPUTEX大会开幕前夕的演讲中预言:AI的下一个浪潮将是物理AI。

黄仁勋提到的机械人世界还需要AI数据来调教  CVPR 2024

即那些理解物理定律的AI机器人,尤其是人形机器人最有可能适应人类所构建的天下。

但随之而来的问题是,这背后须要海量的数据支持,尤其是人形机器人更为明显。
由于人形机器人面临的场景多样,而且这些场景的数据采集不随意马虎。

乃至有业界人士认为,当前具身智能最大的瓶颈便是缺少数据。

实在不止于机器人场景,无论是构建具有强逻辑的AI模型,还是演习像GPT-4这样的大措辞模型,都离不开大规模、高质量的数据集。

例如,GPT-4的模型演习就动用了大约13万亿个tokens的数据集,这无疑是一个天文数字。

在这样的数据需求下,我们自然会思考:

如此弘大的演习数据究竟从何而来?

AI行业数据的瓶颈,何解?

基于弘大数据和超高算力的“暴力美学”,是当前天生式人工智能的核心打法,也因此OpenAI为代表的一众企业的发展关键。

大略来说,在同等条件下,喂的数据越多,人工智能就越强。

海量、优质的数据争夺已经成为国家和企业间的无声沙场。
基于数字技能形成的通用数据、优质数据垄断,可能将成为这场数字拓荒当中,后发者无法超出的天堑。
在一定程度上可以说,节制数据,就节制了包括人工智能等浩瀚未来家当的主导权。

但是从真实天下获取数据是一件困难重重的事。

Google在RT-1项目中的经历便是一个例证,在雄厚的资金和科研资源支持下,Google团队历时17个月,仅网络到13万条覆盖700多个任务的机器人数据,这些数据的泛化能力远未达到预期。

由此可见,获取真实数据难度大、耗时长、本钱高,同时还存在现实天下数据采集在隐私合规和数据安全方面的寻衅,难以知足人工智能大模型演习的需求,当前,“百模大战”风起云涌,头部企业竞相投身人工智能赛道,但有效数据不敷,特殊是高质量数据短缺,部分领域封闭式的数据生态给人工智能发展带来了掣肘。
如何办理“数据瓶颈”是未来一段期间我们即将面临——或已经面临的寻衅。

如何应对寻衅,目前一家利用打算机技能天生数据的做事商非常值得关注,它是群核科技(酷家乐)创新实验室Koolab孵化出的Coohom Cloud。

群核科技是海内最大的空间设计软件平台,Coohom Cloud利用其弘大的室内数据资源,结合高性能的渲染引擎和前辈的数据处理技能,为AI行业“投喂”逼真且物理真实的2D、3D室内数据集等产品和做事。

群核科技平台每天会天生40万+3D设计方案,并沉淀了约3.6亿个3D模型数据,涵盖家具、电器、生活用品等,在此根本上,群核科技与包括英国帝国理工大学、美国南加州大学浙江大学等高校联手推出了多种数据集,为室底细况理解,3D重构,机器人交互等研究供应的强大数据根本。

在2D图片渲染技能上,Coohom Cloud利用自研渲染引擎,在多样化的室内场景中,通过调度相机参数、行为轨迹、灯光条件等设置进行图片数据的采集,最终生成RGB、深度、语义、法向、点云等格式的2D数据集。
这样的数据输出能力,使得Coohom Cloud每天能够产出30万组2D数据集,为AI智能体的导航、视觉感知、环境理解等能力供应了充足的演习素材。

群核科技怎么解?低本钱+高质量

本钱更低是数据获取必须要的优点,包括获取本钱和经济本钱,不少企业都在大量烧钱试图通过海量数据来知足AI模型演习需求,高额的投入和预期的不愿定性,让资金的持续投入陷入困境。

为了供应更高性价比的数据做事方案,Coohom Cloud通过自研数据引擎,这是一套专为挖掘数据转化而设计的高效工具,可以高效的将设计平台沉淀数据库转化为AI演习的燃料。
它不仅能够定制化输出针对不同行业所须要的数据集,还能实现室内场景的数字化天生,与NVIDIA Isaac Sim、Unreal Engine、Blender等专业仿真器和渲染引擎无缝对接。

所有流程全部利用打算机技能实现,用户对付数据的利用会更加便捷和直不雅观,无需再耗费大量人力物力去采集获取数据,从而可以将更多的重心放在模型调优上。

当然,数据想要投入商用,除了数据量、本钱上风以外,更须要担保的是高质量,这将决定数据家当的未来发展面有多大。

在这一点上,Coohom Cloud是怎么考虑的呢?

1、物理性子增强

在人形机器人的发展道路上,环境交互能力是其智能化的关键。
比如自若开关门、精准取放物体、乃至叠放衣物等。

以NVIDIA Isaac Sim仿真平台项目为例,通过创建一个包含物理属性的逼真3D环境,让机器人能够在虚拟天下中学习如何与物体互动、预测物理事宜,乃至在虚拟天下中进行探索和导航。
在这样的虚拟环境中,机器人可以进行无数次的交互测试,无需担心物理损伤或环境限定,从而大幅降落了演习本钱,同时提高了演习的安全性和可重复性。

Coohom Cloud正是基于这样的理念,利用Isaac Sim,Unreal Engine等为代表的的仿真平台,为机器人演习供应了定制化的场景和交互模型。
这些数据不仅在视觉上逼真,更主要的是,它们具备真实的物理属性——铰链、滑轨等组件可以进行旋转和平移,同时模型还拥有真实的密度、摩擦力和弹性等物理状态信息。
这使得机器人能够在物理真实的虚拟环境下,以极低的本钱获取大量的演习数据,测试并优化其性能。

2、场景环境增强

在AI的天下里,光芒就像是那个决定成败的细节,特殊是在视觉感知任务中,光芒条件对AI的识别和剖析能力起着至关主要的浸染。

拿上文提到的InteriorNet来说,这一大规模多传感器真实感室内场景数据集,通过供应不同光照环境下的高真实感渲染图像,展示了环境增强与多样化在提升AI性能方面的主要性。
做事类机器人在面对室内外光芒变革时,可能会碰着识别障碍,因此,拥有一个涵盖广泛光照条件的数据集对付演习AI以适应各种环境至关主要。

Coohom Cloud为虚拟室内场景中的每个灯源设定详细参数,实现个性化的灯光环境掌握,让机器人在不同的光照环境下都能“看”得清清楚楚,学得明明白白。

除了光照条件的多样性,Coohom Cloud还通过Domain Randomization技能,进一步增强了场景环境的繁芜性,就像是给机器人的演习场来了一场“大变身”。
这项功能能够根据不同的演习需求,灵巧切换模型的表面材质,比如将大理石地面更换为木质地板,调度不同反射效果,从而在虚拟环境中仿照出真实天下的多样性和繁芜性。
让机器人的演习更加贴近现实,增强了它的适应性和泛化能力。

3、高效标注系统

AI领域中的数据标注是模型性能的关键成分,但传统的人工标注办法劳动密集且耗时。

Coohom Cloud利用前辈的合成数据天生技能,可以根据研究者需求定制化分割和标注数据。
例如,处理寝室场景的3D模型时,系统能细分为床、枕头、毛毯等根本要素,并天生精准语义标签,提高数据准确性并知足需求,从而提升模型认知精度。
这种办法不仅减少了人工标注事情量,也使研究者能更专注于模型创新和优化,提高数据处理效率,为AI技能发展注入新活力。

此外,在隐私、安全法规等问题上,Coohom Cloud采纳的合成数据安全策略亦可以避免打仗任何真实用户数据,安全审核机制用于检讨数据是否合规,并针对交付利用的数据进行干系授权管理,从而确保数据的安全利用。
在生态链上,Coohom Cloud也串联了精良的设计者和研究者,针对AI需求,开拓更高效的工具来促进设计生态向AI前沿领悟。

家当级运用时候,正在到来

不论是诸多机构的预测数据,还是成本机构的”投注“,亦或是家当侧的实际运用,都可以看出数据做事已经从科研场景逐步走向市场化。
也有越来越多玩家选择加入。

不过在人工智能领域,数据的质量和运用的实际效果比盲目堆砌更为关键。
那么,Coohom Cloud的海量室内数据集是如何落地到不同的行业场景中的呢?

2022年底,群核科技KooLab与英特尔实验室、西班牙打算机视觉中央以及慕尼黑工业大学共同打磨的SPEAR智能仿真平台,面向开拓者全面开放,帮助开拓职员加快对不同智能机器人的演习和验证。

在全体项目中,Coohom Cloud团队供应超300个场景、超17000个模型,为仿真器的研究供应了数据上的神助攻,让研究者能便捷的在虚拟环境中测试机器人性能。

英特尔首席科学家Mike Roberts惊叹Coohom Cloud的高质量数据:

不仅加速了具身智能研究,还为仿真器项目的落地供应了全方位的数据保障。

再以清洁机器人产品为例,在室内为主的业务场景下,积累边缘场景数据须要大量韶光,这会直接影响到C端用户的产品体验,因此办理机器人场景边缘场景问题成了产品提高竞争力的关键。

清洁机器人的边缘场景紧张包含一些难以网络的宠物粪便,果壳碎屑等障碍物,分外狭窄的过道、高反光的地板玻璃以及强暗光环境下的数据等,以前为了采集数据,厂家得组建个数十人团队,耗时数月,还得外包给第三方,全体过程繁琐又烧钱,数据质量还不一定达标。

Coohom Cloud的方案,让企业从模型素材到语义标注,再到数据构造处理全流程把控,为用户关注的边缘场景,专门打造分外的室内虚拟环境,并通过调度光照参数,实现场景多样性衍生,在45个事情日即天生了数万组高质量的3D模型数据集和百万组风雅化图片数据,数据交付即可用,帮助企业大幅减少数据侧投入,提高AI项目进度。

当AI大模型和人形机器人成为科技界的热议话题,数据已然成为了这个时期的核心资产。
Coohom Cloud正以其强大的数据天生技能,为AI的多样化运用需求供应支撑,推动行业向更广泛的智能化发展迈进。

One More Thing

我们期待着Coohom Cloud在未来能够持续深化其技能,不断探索新的领域。

而就在6月17日至6月21日,Coohom Cloud团队将在西雅图举办的2024年CVPR会议上,展位号1637,展示他们的最新成果。
如果你对数据做事充满兴趣,不如亲临现场与Coohom Cloud团队深入互换,共同见证AI数据做事的未来。

官网主页:www.coohomcloud.com

联系办法:cloud@coohom.com

— 完 —

量子位 QbitAI · 头条号签

关注我们,第一韶光获知前沿科技动态约