澳鹏引领业界打造适合每个人的AI

澳鹏的一系列AI项目和多元化的全球众包资源为AI项目提供无偏见的AI数据,确保项目的公平和公正。

2021年4月29日——旧金山——澳鹏Appen Limited(ASX:APX)是一家为大规模构建有效AI系统的企业提供高质量训练数据的领先供应商,其通过一系列项目和合作伙伴关系,支持企业部署、更新和运行无偏见的AI模型。在超过100万技术娴熟的全球众包数据标注员的支持下,澳鹏已开发多种用于AI模型的训练数据集,特别是自然语言处理(NLP)计划,以确保最终用户无论其语言种类、方言、民族、口音、种族或性别如何。

基于偏见或不完整数据的AI项目不适合所有人。根据2020年3月PNAS(美国国家科学院院刊)发表的一份报告,用于虚拟助手、隐藏式字幕、免提计算机等场景的流行自动语音识别(ASR)系统在性能上表现出明显的种族差异。报告总结道,需要更多不同的训练数据集以减少这些性能差异并确保语音识别技术具有包容性。语言解释和自然语言处理(NLP)系统面临同样的挑战,需要同样的解决方案。

澳鹏首席执行官Mark Brayan表示,“训练数据的质量和多样性直接影响着AI模型的性能和偏差。作为数据合作伙伴,我们能够提供适用于诸多用例的完整训练数据,以确保AI模型适合所有人。重要的是,我们聘请不同的一群人制作、标注和质检,确保所训练的模型构建是公平且负责任地。”

澳鹏语言项目范围

澳鹏专注于语言和方言多样性的项目和合作关系,践行承诺,创建适合所有人的AI。

  • 无国界翻译组织(TWB)合作关系——澳鹏与无国界翻译组织、亚马逊、卡内基梅隆大学、Facebook、谷歌、约翰霍普金斯大学、微软和Translated合作,加入了抗击新冠疫情翻译倡议组织(TICO-19),该组织支持开发语言技术,以尽可能多的语言提供抗击疫情信息,包括发展中国家的语言,如刚果斯瓦希里语、提格林亚语和尼日利亚富尔富尔德语。
  • 因纽特语翻译项目——微软与努勒维特政府的合作项目,使用澳鹏的服务将在加拿大北极地区使用的北美洲土著语言因纽特语添加到Microsoft Translator。
  • 加拿大法语翻译项目——澳鹏与本地语言顾问合作,帮助Microsoft将语言选项“加拿大法语”添加至Microsoft Translator。
  • 非裔美国人口语(AAVE)成品数据集——大多数现用于ASR、搜索引擎、语音助手和情感分析的成品数据集并不能代表AAVE。为提供高质量AAVE数据,澳鹏与其众包标注员中的AAVE使用者合作,在广泛主题的对话基础上,采集用于OTS数据集的数据。

澳鹏AI专家高级总监Judith Bishop博士表示,“有偏见的AI数据可能导致项目无法实现预期的商业结果,并影响到那些本应从中受益的人。AI项目的规模和复杂性使得大多数企业无法在没有与AI数

据专家合作的情况下获得海量的无偏见高质量数据。澳鹏致力于发展最具多样化的、最专业的数据标注者,为业内提供具有明显差异化优势的资源,用于建设公平及合规的AI项目。”

澳鹏的多元化领导方法

澳鹏依托来自170+个国家/地区的训练数据标注员。涉及的语言包括235+种独特的语言和395+种方言。多年来,澳鹏众包资源中已有超过3万名人员可流利使用三种语言,这足以证明了澳鹏多样性和专业化。

澳鹏还提供成品(OTS)数据集,旨在让企业更容易、更快速地获取其所需的高质量训练数据,加速他们的AI和机器学习项目。OTS数据集可提供80种语言和多种方言版本,包括难以获取的语言,如多种阿拉伯语、克罗地亚语、希腊语、匈牙利语、泰国语等。

根据联合国经济和社会事务部的数据,“世界上大约97%的人口仅使用[7000]种语言中的4%”。这4%仅包括280种语言,而AI核心技术所服务的语言数量,只占了其中的一小部分。澳鹏旨在通过当前及未来的项目帮助增加这一占比。

关于澳鹏Appen

澳鹏Appen Limited是全球领先的图像、文本、语音、音频、视频等AI训练数据服务提供商,拥有业内最先进的人工智能辅助数据标注平台、一体化的AI数据及资源管理平台及全球100多万名技能娴熟的众包资源,支持235+种语言和方言。澳鹏Appen的解决方案可为全球科技、汽车、金融服务、零售、制造和政府等行业的领导者提供优质、安全、高效的服务。澳鹏Appen成立于1996年,客户和办事处遍布全球。

Language