人工智能背后的人工,数据标注背后的众包

人工智能领域每天都在上演着日新月异的发展和进步。当我们打开手机,启用美颜APP里各种各样的AI滤镜时,我们看到的是搞笑的头像和可爱的表情,而AI“看到”的是我们脸上被标记的数百个点。

我们或许早已对各类AI滤镜习以为常,但却甚少思考AI究竟是怎样识别出哪里是眼睛,哪里是鼻子。在这些AI应用的背后有这样一群人,他们是被称为人工智能“老师”的数据标注员,常被企业称为“众包”。

“人工智能”背后的“人工”

早上8点30分,小张打开了名为“数据标注分配任务群”的QQ群,开始了一上午的工作。小张的任务是在视频中找到黑色的龋齿,然后用鼠标将龋齿周围画一个数字“边界线”,从而将它标注出来。最后小张会将标注好的新视频重新反馈到群里,结束一上午的工作。

在无形之中,小张已经成为了人工智能医疗系统的“老师”,通过大量的数据迭代让AI可以准确识别出哪些是龋齿,龋齿腐烂的程度等等。小张或许并不能准确说出“数据标注”的含义,但他却用实际行动日复一日履行着一个数据标注员的责任,让机器通过大量的资料学习,直到它们顺利“毕业”。

数据标注=只有人工?

近几年,数据标注开始在国内大规模兴起,这与我国人工智能发展现阶段需要大量的数据密不可分。由于数据需求量巨大,数据标注公司会将一部分标注工作分包出去,称之为“众包”。“众包”的出现让AI数据更多元化的同时也带来了大量的就业机会。那么高质量的数据标注就等同于大量的众包或人力吗?

在最近一篇题为《优化众包资源的策略和成本》的论文中,澳鹏数据科学家Phoebe Liu和她的团队以训练聊天机器人等对话系统为例,研究最具有成本效益的众包策略。由于越来越多的行业采用聊天机器人技术来提供客户服务和其他关键功能,因此企业需要高效、经济的众包资源策略对AI系统进行训练。研究结果表明,训练数据是构建机器学习模型的关键,而使用AI技术辅助人工则可以在不增加成本的情况下显著提高数据质量。

澳鹏中国研发中心将全球经验融会贯通,针对本土AI行业的特点,投入大量研发资源打造了专注服务中国市场的人工智能辅助数据标注平台,集成了先进的3D点云标注工具,能够做到准确标注复杂的点云数据。平台功能包括融合标注、自动补全、一键贴合等,兼顾高科技标注功能与简单易用的界面,可实现快速、准确的高质量标注,以人机协同的方式将机器学习能力和人类智慧有效结合。

澳鹏众包资源道德规范

澳鹏(Appen Ltd.)CEO Mark Brayan 表示:“人工智能行业的发展依赖于负责数据收集和标记的人员。正是他们的付出让基于机器学习的解决方案成为可能,而如今,我们正在规范我们对其福祉的承诺。我们相信,我们的客户应该知道,他们的合作伙伴代表着众包资源的道德待遇。”

澳鹏众包资源道德规范包括:

  • 公平薪酬 – 在全球每个市场以高于当地基本工资的标准为众包资源支付薪酬
  • 隐私和机密性 – 仅出于项目之目的而要求收集有关众包资源的任何信息
  • 包容性文化 -为具备不同能力和背景的个人提供机会
  • 沟通 -坚持与众包资源进行有益、透明且具有响应性的沟通
  • 话语权 – 让众包资源拥有宝贵的话语权,反馈意见也有助于我们不断改进
  • 福祉 – 通过在线论坛及最佳实践来促进福祉、社区和联系

澳鹏加入了全球影响力寻源联盟 (GISC),该组织的使命是“通过促进广泛采用影响力寻源来建立具有广泛包容性的全球供应链”。澳鹏的《众包资源道德规范》与 GISC 的使命如出一辙,进而使两者之间建立了牢固的合作伙伴关系,共同为世界各地的个人提供机会。

澳鹏帮助机器学习和人工智能领域的领导者将概念转变为生产。联系我们了解更多信息。

Language