辅助标注。帮助标注员提高效率。在数据标注领域有大量手工的工作,甚至可以说传统数据标注几乎100%都是手工标注。而澳鹏有专门的数据科学家团队,专门研究人机交互以及如何利用 AI 算法来进行辅助做数据标注,帮助客户降低成本,提高 AI 模型的迭代速度。在自动语音转写、OCR、自动驾驶等领域发布的辅助标注算法已达到50%以上到几倍不等的效率提升。
如果说优秀技术架构与高效迭代是决定一家人工智能数据服务商是否站得稳的关键,那么真正决定它是否走得更远的,就在于产品本身解决问题的能力到底有多强。
在这个问题上,蒋孟杰提出了一个关键点:“AI项目部署生命周期”。
一般 AI 项目部署的生命周期会包含:数据采集、数据标注、数据探索、模型开发、模型发布、定期监控。
那么,数据在这个生命周期里扮演着怎样的角色?澳鹏又解决了哪些问题?蒋孟杰描述数据的重要性时引用了Andrew Ng(吴恩达,人工智能和机器学习领域国际最权威学者之一) 的话:成功的 AI 部署, 80%是数据准备(包括数据清洗/数据标注等), 20%是花在模型开发上。而澳鹏在整个生命周期中帮助客户解决数据采集, 数据标注, 模型发布后期监控。
除此之外,数据的可用性质量也是澳鹏服务的核心。蒋孟杰打了个比喻:“AI模型就像小孩子,你教给他什么,他便学会什么。如果数据质量很糟糕,那么AI模型学会的也是这些错误。”所以在澳鹏有一整套方案保障数据的质量:
多人标注同一条数据进行投票打分
数据埋雷
机器学习辅助质检
多轮人工质检
蒋孟杰认为,项目管理是一门艺术,尤其是人工参与的场景,可能会在整个流程中任意环节出现变化。澳鹏的优势在于其针对各个企业的业务进行深度的打磨,融入了自己的高效的项目管理方式以及标注细节优化。
1. 让整个项目管理流程更容易定制和适应变化,澳鹏有模板引擎可以定制特有的标注需求,有多轮质检并且可配置质检拒绝后的行为,澳鹏有根据标注员的质量调整质检抽检率的控制机制
2. 标注工具的精心打磨,澳鹏会衡量常见标注任务的时间以及鼠标点击次数,目标是人机协作,以 AI 的方式服务 AI。一方面澳鹏会在人机交互方面进行提升,也有专门的HCI工程师,另一方面,会用 AI 模型进行辅助,实现人走一步,机器帮忙前进几步的效率提升。人和机器各自做自己擅长的事情。
拨开迷雾
CSDN:听说澳鹏正在密切关注自动驾驶领域,那么在自动驾驶领域的数据方面,目前存在哪些挑战?澳鹏又做了哪些解决方案?
蒋孟杰:这个问题可以分为5个部分。
1.需要同时使用多个感知传感器互补,比如摄像头,激光雷达同时使用。多用一个传感器,就多一次标注,如何连接多个传感器的标注是个很大的问题。澳鹏提供多传感器融合标注方式, 在提供标注能力的同时,极大节约标注成本。比如在3D的激光点云上面标了一个3D框以后,我们可以自动换算投影一个2D 框到图片上,同时保证同一个物体在不同传感器的数据上拥有相同的 ID 和物体属性。该工具也被设计成可适配不同传感器类型和数量。
2.感知有各种细分的场景,比如目标识别、车道线识别、可行驶区域识别、路牌识别等。澳鹏提供全套标注工具,并且可根据场景灵活配置调整标注方式。
3. 需要海量的标注数据——成本高。我们会利用预标注模型进行高效的辅助标注,比如一键3D拉框,3D 车道线精调,自动连帧标注等。
4. 需要海量的标注数据——难以管理。当数据量小的时候,很多公司甚至一个Excel就能管理,但是数据量大了以后,数据的流转就会成为问题。我们提供数据全流程生命周期的管理,并且可以自由定义数据生产流程。
5. 2D/3D数据难以分析/查看。无论在客户验收还是开发算法过程中,2D/3D 的标注数据都不像文本标注或者语音标注结果这么直观,2D/3D 的结果都是一些坐标信息,客户拿到标注结果需要一些开发工作、来看标注结果。澳鹏提供可视化验收工具,并带有标注结果统计,比如标注数据里面包含多少车,多少人。总共多少个点等等。
CSDN:每个企业的技术架构与实力不同,对于初创、中型、大型的企业来说,如何选择合适的数据标注平台/相关服务商?其中有哪些不同吗?
蒋孟杰:初创业务场景变化非常快,一般标注需求量不会很大。而且公司没有精力或者资源开发或维护数据标注平台。我们会推荐纯SaaS模式,可以让初创企业快速开启标注,快速试错调整方向。
中型企业已经有较为成熟的业务模式和自有系统,另外也有资源去开发或者运维数据标注平台,会比较关心是否有开放 API 进行系统集成和二次开发,是否有全面的功能。这类企业,我们会推荐混合云部署模式或者私有化部署模式, 并且结合我们 Managed Service 进行数据标注。
而一般大型的互联网企业比较早地使用AI 技术,已经自己开发了一些标注平台。在选服务商的时候会特别看重服务商“是否有能力快速得招到大量高质量的标注员、是否标注工具层面会比自己公司的效率更高、数据安全是否有保障”等。这类企业我们也会推荐混合云部署模式或者私有化部署模式,并且结合我们Managed Service 进行数据标注。
CSDN:您认为未来人工智能数据标注领域或该领域的服务商,会有哪些发展趋势?
蒋孟杰:现阶段标注领域鱼龙混杂,价格竞争激烈,其中不乏大量传统人力服务商进入这个领域。随着行业的洗牌,有快速招人能力、拥有大量项目管理经验、有自有平台研发能力的供应商会逐渐脱颖而出。
标注平台会沿着采集和标注一体化方向发展。对很多AI 企业来说,往往同时需要数据采集和标注。比如刚才的例子,采集日常交流语音,采集完以后需要对语音进行文字转写。如果把采集和标注分成两个独立阶段,时间交付周期很长,另外如果标注觉得采集的语音里面完全没法听清,很难及时打回给采集人员重新录制。
另一方面,未来可能会向AI数据中台发展。不仅管理非结构化数据的,也会慢慢延伸到结构化数据的管理。数据标注在整个生命周期中不会是一个独立的存在。如果分裂的多个系统,数据科学家会浪费大量时间在搬运数据上,效率不高,另外也影响创新。如果以集成式的AI数据中台为基础,数据科学家可以开发算法和数据标注互相迭代提升。比如边标注边实时训练模型,效果没法再次提升的时候就停止标注,这个在业界叫主动学习。
联系我们,了解澳鹏如何制定数据解决方案吧!