高质量数据服务助力提高自动驾驶安全性

在自动驾驶领域,仅仅根据已知的场景、障碍和潜在事故原因来部署联网自动驾驶车辆还远远不够。谁能够实现准确预测,并对不寻常的情况做出反应,将是接下来自动驾驶技术落地的争夺焦点。

从Mobileye的RSS,到特斯拉的“影子模式”,从通用Cruise的“持续学习机器”到几乎所有企业都在推动的“数据驱动闭环迭代”,都在强化对于不确定性事件的预测和规避、学习能力。

以特斯拉为例,如何创建高性能训练网络所需的大型数据集,不管是依靠手动标记、自动标记和模拟仿真等方式,已经成为高阶智能驾驶落地的关键因素。

该公司的相关负责人强调,未来,数据的重要性远高于算法。同时,以模型为中心的机器学习框架。正在向以数据为中心的方法进行升级,“未来,开发人员的主要任务是修改数据集,而不是优化算法。”

这位负责人坦言,特斯拉在训练视觉和规划神经网络时面临的挑战。已经不再是纯粹的硬件算力问题,唯一可行的方法是用足够多的真实并且是高质量的数据来训练算法,从而覆盖几乎所有可能的场景。

某自动驾驶公司高层表示,在数据方面,自动驾驶面临的最大痛点便是corner case的积累。然而,由于不同公司数据采集车的传感器安装位置、采集标准各有不同,下游公司通常只能亲自下场采集各种极限工况,“一步一个脚印地”完成更多的数据积累。

针对上述问题,澳鹏提出了“合成数据”解决方案,可以模拟不同的场景并安全高效地完成数据采集,实现对于极限工况的有效补充。

其具体优势为:改进模型的可靠性、比“真实”数据获取更快、可用于边缘案例的补充,并可有效保护用户隐私安全。

现阶段,虽然合成数据的使用率很低,但业内人士预测,到2027年,数据市场预计将增长至11.5亿美元,即复合年增长率达到48%。2030年,合成数据的崛起将成为主流大趋势。

此前,澳鹏Appen曾收购人工智能数据平台Mindtech的少数股权,双方将开展深度合作,提升为客户提供合成数据的能力。

“我们对与澳鹏的战略合作感到兴奋,”Mindtech 首席执行官史蒂夫哈里斯分享道。“这将使更多客户能够使用高质量、精确注释的合成数据快速训练他们的人工智能系统,同时补充 Appen 现有的真实世界数据收集、管理和注释产品。通过合作,我们将加速人工智能系统的开发,更好地了解人类如何与彼此以及周围的世界互动。”

 

迎接数据服务的2.0时代

总结这家“尖子生”的成绩,作为澳大利亚证交所上市的科技公司,澳鹏公司已拥有25+年行业积累与广泛的全球客户基础。

在服务方面,公司拥有一支过硬的数据科学家团队,可以在服务企业之前了解场景,设计如何采集数据/标注数据能真正帮助到企业成功训练模型, 以结果导向。

“这也是我们为什么会选择澳鹏作为数据合作伙伴之一。在标注需求方面,除了质量与成本,自动驾驶公司最看重的标准便是上游服务团队是否拥有专业的算法人员可以与公司对接,真正理解公司的数据需求。而这也是比较难得的一点。”主线科技相关负责人表示。

此外,澳鹏还拥有百万级的众包资源,能够提供全球数据采集和标注服务。其在自动驾驶领域月收入额可达上千万以上,在中国市场覆盖30+个自动驾驶客户。

在澳鹏看来,数据服务赋能行业的关键就在于整合资源,并与客户深度绑定。例如提供技术接口,让客户参与到标注过程中,可实时反馈(API集成),或对自有平台的功能进行改造和匹配;帮助客户将重心放在模型开发上,降低数据成本,提升算法效率。

最重要的是,公司拥有完整的数据流转系统,可以不断迭代优化数据与服务工具,并以低成本、高灵活的服务配合客户需求。可以说,在自动驾驶领域,澳鹏高精度高性能的自动驾驶工具套装也是其为客户构筑海量数据资产的利器,这是澳鹏的核心优势之一,也是公司迎接“数据服务2.0时代”的不二法门。

数据流转系统

何谓“数据服务2.0时代”?高工智能汽车认为,过去,数据标注多数只服务于自动驾驶POC项目,属于“一锤子买卖”。而在2.0时代,软件定义汽车带来了对功能迭代升级频率的高要求,背后则是每家车企积累的数据资产的价值竞争,并直接影响汽车智能化的功能优化和体验升级能力。

高工智能汽车研究院监测数据显示,2021年中国市场(不含进出口)乘用车前装标配搭载OTA功能上险量为748.41万辆,同比增长65.99%,前装搭载率已经提升至36.7%。而软件召回也已经成为目前汽车召回的主要因素之一。

相应的,从整体行业来看,数据标注正从简单、重复的拉框标注向精细化方向发展,也就是说数据标注行业正从简单的劳动力密集型向专业型数据服务过渡。

以澳鹏自主研发的人工智能辅助数据标注平台MatrixGo为例,可支持像素级语义分割、2D图像复合标注、3D点云拉框及语义分割等功能;

采标一体的任务能够实现采集-质检-标注-质检-客户验收的双向协同流程,让整个数据生产线上的各个环节实现无缝衔接;内置的多轮质检模块可以按需配置,满足不同复杂度项目的需求;2D图像复合标注是全结构化的模型训练利器,支持点、线、框、多边型融合标注(常见工具是单模式的,点、线or折线,多边形)与连续帧;

另外,此工具还支持像素级语义分割,可将图片中目标对象实例标记出来,并保证像素级的质量。其中丰富的可配置选项可灵活进行ID处理,实战中可以做到10分钟/张图。

MatrixGo

钱程介绍,澳鹏利用ML辅助标注等技术手段提高数据质量,通过预识别系统,让算法先进行预识别,再根据结果进行人为调整,最终在成本控制和质量上实现显著提升。

总体上,其标注工具可实现99.9%的准确率,并达到5分钟一张、1秒一帧极速质检,在交互、超大数据加载、实时切帧进行渲染等方面都达到了行业第一。

高工智能汽车研究院认为,进入数据服务2.0时代,谁有能力深度绑定汽车全生命周期,并提供完整且高质量的数据供应服务,谁就有机会成为该领域的No.1。

点击联系我们,了解澳鹏如何通过全生命周期数据服务,助您落地更加安全的自动驾驶。

 

本文作者:高工智能汽车

Language