从互联网视频中提取多模态体现数据,将数据提
从互联网视频中提取多模态体现数据,将数据提取成本降低到五千行业。已入驻的情报公司获十千万元融资 |硬氪首发
五月集 |黄楠编辑|袁基来硬氪获悉,数途科技(深圳)有限公司(以下简称“数途科技”)近日完成千万元天使轮融资。这一转折由东方福海和建谷资本共同领衔。融资资金将重点用于持续培训和变化的视频体现数据收集数据,以加快为许多体现的情报公司提供数据商业化的进程。 “楚图科技”是MaForever内部硬氪注的一家公司。公司成立于2024年,致力于数据和模型采集的研究、开发和多模态应用及模型采集。通过合并视觉接触系统、语言和环境,构建适应开放场景的通用实体数据平台,推动实体智能技术在物流、制造、服务等领域大规模落地。目前,随着具身智能的发展进入应用阶段,训练数据的规模、质量和差异性已成为制约模型性能提升的主要瓶颈。端到端的模仿分析虽然在有组织的情况下表现出较强的适当工作能力,但它依赖于大量数据的高质量表现,存在因果关系和泛化脆弱等问题,难以适应动态的开放环境。另一方面,基于远程控制的数据采集方法即使能够获取人类操作的直接信号,也受到硬件成本高、成本低等现实障碍的限制。作业效率高,场景范围窄。成本高且难以实现大规模数据制造。在此背景下,仅依靠有限的封闭数据集或高成本的仿真平台已无法满足下一代具身智能系统对更多模态、更长系列时间、更强交互数据的需求。业界迫切需要一种可扩展、廉价、可信度高的数据,以突破当前模型在泛化、灵活性、推理能力等方面的天花板。利用网络视频来训练人形机器人(资源/公司)动作,针对这个标准点,许多领先的行业公司都关注网络视频的数据资源:网络视频获取和制作成本低廉,来自真实的物理世界,嵌入了物理参数、世界自然规律等高质量、高维度的信息。今年8月初,马斯克宣布向 X 透露,特斯拉 Optimus 已逐渐关闭远程操作路线,预计未来几年将通过 YouTube 视频独立学习和掌握新技能。 9月中旬还公布了该图,其螺旋实现了基于人类自尊的全程视频训练,理解自然语言指令,并在真实广泛的环境中实现自主导航。相比于其他公司进行创新的视频数据处理并仅服务于自己的模型,“数图科技”正在自主开发synadata pipeline解决方案,可以获取多模态视频体现数据并服务于第三方体现模型。 Synadata数据管道解决方案(图源/企业)从互联网上采集海量RGB视频,基于视频升频、跨域重定向等技术突破,威刚数据管道的Synadata解决方案将视频转换为多模态、高nA精度的embedding实体训练数据,为大规模实体智能训练提供可持续的高质量数据来源,并将综合数据获取成本降低至行业平均水平的五千倍。例如,在“取外卖袋”的任务中,Synadata系统可以批量提取包括手部运动轨迹、物体移动路径、物体网格三维表面等多模态体现数据。测试结果表明,基于该数据集训练的模型能够以88%的成功率获取外卖袋,展现出强大的场景强化能力。互联网视频展示包包转化为数据训练机器人提包(产地/营业) 目前,ANG Synadata系统已完成流水线技术的充分验证,处理了数千条覆盖各种内外部环境的视频内容,创建了覆盖整车等百余种工种的标准数据集重新、放置和精细组装。部分数据应用于清华RDT、Pi π0、致远Univla、Equibot等主要开源视觉语言动作模型。针对目前视频数据在准确性、海量性、标准化等方面的瓶颈,“数图技术”从提高准确性、扩大泛化性、生态共建三个主要方向推动系统升级。例如,在精度方面,针对目前复杂交互场景中动作细节拍摄不足的痛点,公司将利用建模的动态孤独性和多视角再开发技术,将重建的轨迹和姿态精度从毫米级提升到2毫米,为精细化作业提供数据支撑。在整体通用能力方面,针对不同机器人本体结构、自由度和控制方式的差异,计划扩展自适应类型。本体种类达到100多种,涵盖了从人形机器人、灵巧双手到各种移动底盘的整个硬件范围。 Synadata体现数据提取(图源/企业) 在生态建设层面,“数图科技”预计于2025年第四季度推出业界首个开源基于SA实景视频的体现数据集,旨在打通仿真-系统扩展-系统数据的全链路,联合合作伙伴。 “数图科技”CTO林晓告诉硬氪,数据决定上限,模型逼近上限。 Synadata将解锁互联网海量视频的“数据富矿”,帮助实体机器人从“动手指导”走向“观看指导”,很好地获取物理世界的交互数据,突破能力上限,为机器人进入千行百业提供基础数据支撑。
特别声明:以上内容ve(包括照片或视频,如有)由“网易号”自媒体平台用户上传并发布。本平台仅提供mga存储服务。
注:以上内容(包括照片和视频)由网易号用户上传,网易号为社交媒体平台,仅提供信息存储服务。 上一篇:特朗普建议北约“踢西班牙”
下一篇:没有了
下一篇:没有了





