MatrixGo平台能力

Image of caption

使用高质量的定制数据快速扩展数据集

若您在寻找针对您的AI使用场景的数据集,您可以查看我们的成品数据集列表以及我们收集的开源数据集,了解我们能否满足您的需求。

如果您需要为您的AI使用场景定制数据,或无法在列表中找到想要的数据集,我们可以为您进行数据采集、合成数据、或数据采标服务,助您完成机器学习训练的数据获取。

利用全球众包采集数据

我们会根据您的需求进行众包团队构建、标准化培训、数据采集以及数据清洗整合,帮您快速采集到高质量大规模数据。

250+成品授权数据集

我们提供超过250个多语言授权数据集,涵盖图片、视频、语音、文字等多方面,助您快速启动AI项目。

成熟的合成数据服务

我们成熟的合成数据产品及专业知识可以人工生成难以找到的数据和边缘案例,提高您的模型覆盖率和性能。

Image of caption

提升您的机器学习模型能力

我们采用多种数据采集方法和交付方式,为您的特殊应用场景采集图像、视频、文字、语音及音频数据。

高质量授权数据

利用澳鹏的 iOS 和 Android 移动应用程序以及我们的MatrixGo平台,我们可以为您快速从全球超过100万人的众包资源中筛选合适的团队进行数据采集。我们的团队会保证所有数据采集均符合道德规范并符合当地的监管要求,让您放心使用高质量的授权数据。

235+种语言方言数据采集

  • 最好的自然语言处理、理解和自动语音识别解决方案,包含超过 235 种语言和方言的已标注语音数据
  • 详细的语言和文化研究
  • 众包母语人士进行主持或无人监督的录音
  • 通过我们的 iOS 和 Android 应用程序收集可扩展的语音数据
  • 在广泛的声学环境中集中进行现场录音
  • 多种不同的语音采集类型,包括电话、嵌入式设备、单/多扬声器、提示变体等
  • 质量保证和项目管理

百万级的文本数据采集能力

  • 数以百万计的高质量文本数据样本,可在全球范围内扩展您的解决方案
  • 聊天机器人、情绪分析等
  • 与我们的专家合作,收集特定于领域、语言和区域的文本数据,使您能够构建强大的 NLP 系统并扩展到新的地区市场
  • 我们的文本话语采集工具带有智能验证器,可检查语言、重复项和连贯性,以确保只捕获高质量的话语
  • 使用我们平台内置的质量控制的机器学习辅助技术,提高采集速度和质量

Image of caption

机器学习辅助标注工具

我们的平台内置机器学习辅助标注工具,可以更快、更大规模地进行数据标注,为客户节省时间、精力和金钱,提高投资回报率。

目标追踪工具

  • 平台内置线性插值和视频对象跟踪模型,可预测对象的位置并自动跟踪
  • 带速度标签的视频对象跟踪功能让我们可以不用逐帧标注,提高了标注速度

图像智能标注工具

  • 预训练和可训练的图像分类模型可以通过自动化数据标记帮助您节省时间和金钱,并且只发送低置信度的图像进行人工标记
  • 自动生成并应用于图像的像素蒙版以供标注员验证,从而节省时间和精力

文本标注工具

  • 能够将模型的预测与数据一起轻松带入平台,并获得更快、更高质量的标注结果和更精确的模型性能指标以进行再训练
  • 专门构建的文本标注工具,可以轻松地详细标注文本,让您的模型接受训练以理解文本并获得有价值的见解

文本聚合标注工具

  • 我们的机器学习可以确保文本经过验证且高质量,经过验证可减少 35%的文本收集量,加速聊天机器人的测试和部署
  • 检查语言重复和连贯性的智能验证器确保我们只捕获高质量的话语

音频标注工具

  • 音频自动分割成不同的扬声器和音频片段以加快音频注释
  • 快速、高质量的音频转录,带有各种语言的声学标签,利用 NLP 提高转录质量和效率
  • 多合一音频工具,可提供清晰明快的音频注释和转录来训练您的模型
  • 我们的音频标注工具可让您自动对音频文件进行分段,方便标注
  • 能够快速轻松地添加时间戳和转录,从而实现大规模的准确注释

3D点云标注工具

  • 3D点云标注工具可通过点云校准、长方体注释、自动调整和像素级注释对点云帧(3D 点云和 RGB 图像)进行标注
  • 3D 点云标注工具具有强大的功能并包括机器学习辅助标注,因此您可以快速准确地注释特定数据,更快地为您的独特用例构建训练数据

Image of caption

稳健的测试和优化

引入动态元素以确保性能更接近真实世界的部署环境

全球众包资源

  • 全球覆盖超过 100 万众包资源
  • 快速组建团队,覆盖数百个地区,拥有高质量的评估人员,以确保您的 AI 产品在目标市场中发挥作用
  • 为产品和技术团队提供人机协同服务

模拟真实环境进行测试

  • 基于非常独特的用例和特定条件的真实环境模拟,确保您的 AI 系统得到正确测试
  • 多年的全球经验和专业知识
  • 快速高效的结果

针对边缘用例进行测试

  • 在部署之前识别潜在偏差问题的测试
  • 确保您的模型可以考虑服务全球市场所带来的不同语言、文化差异和多样性

专业的AI模型对比服务

我们新的语音助手基准 (VAB) 计划是与全球顶级技术公司的合作伙伴关系,用于临时 TTS 语音基准、平均意见量表 (MOS) 和 MUSHRA 评级。这是一个简化、标准化和迭代语音评估过程的机会,创建一个真正的基准并突出跨设备和品牌的最佳语音助手标准。

Image of caption

我们的产品和专家将帮助您将数据转化为情报

当您与我们的专家合作设计分类法和本体时,可以获得最佳结果。知识图谱提供了比传统知识图更灵活、更复杂的存储,与每个问题的标准 1:1 编码答案相比,最终用户会收到更广泛的答案。

知识图谱技术

  • 针对您的特定建议优化的面向未来的图表
  • Appen 对产品进行分类和建立联系的贡献者
  • 联合本体,提供对链接数据的全新世界的访问
  • 推动业务流程的洞察力,如智能推荐

民主化本体创作

  • 图形用户界面,便于点击和放置本体创建
  • 与各种流行图形数据库的内置连接
  • 可视化用户界面,轻松绘制本体结构
  • 强大的内置注释工具,可将非结构化数据转换为知识图格式(RDF、SPARQL 等)
  • 一种改变游戏规则的工具,允许具有领域专业知识的人创建本体,而无需依赖第三方技术资源

本体论和分类学

  • 咨询专业知识,为您的知识图谱创建基础本体
  • Appen Ontology Studio,我们一流的本体创作工具,可让您轻松创建自己的本体结构
  • 初始数据分析以确保本体创作的最佳途径

信息提取

  • 帮助您从原始数据中提取有用信息以填充知识图谱并训练信息提取模型的专家
  • 非结构化数据转换为知识图格式(RDF、SPARQL 等),我们的全球人群帮助将这些注释项目扩展为可用信息
  • 能够使用我们简单的 GUI 一步将原始的非结构化数据转换为可用的知识图格式,而无需通常需要的艰巨的多步骤过程

多数据类型智能标注工具

Tab image

图像

采集、分类、标注和/或转录图像以训练最准确和包容的计算机视觉模型。我们的图像标注工具包括多边形、点、线、旋转边界框和/或椭圆以及像素级语义分割。可以使用本体以形状收集额外的对象信息,以实现更快、更灵活和更准确的图像标注。这套工具为您提供了快速准确地成功标注各种图像类型所需的一切。

Tab image

视频

采集、分类、转录或标注视频,以帮助您的模型观察和解释周围的世界。我们的标注工具包括特殊的转录和时间戳工具、对象跟踪(具有额外的速度标记功能)、对象检测和时间戳以及本体属性标注。我们的机器学习帮助和定制工具使您能够灵活地大规模轻松获取准确的视频标注。

Tab image

音频

为您的 NLP 项目采集、分类、转录或标注音频数据。我们的音频标注工具的速度是传统标注工具的两倍。将音频分段为音频语音识别和其他音频模型的层、扬声器和时间戳。使用各种语言的声学标签快速生成高质量的音频转录,利用 NLP 提高转录质量和效率。我们的一体式音频工具专门用于提供清晰明快的音频标注和转录来训练您的模型。

Tab image

文本

采集、分类和标注文本,以增强您的 NLP 模型对细微差别的人类语音的理解。 快速标注功能包括内置的多语言标记器,以协助人工标注工作。带有选项的目标实体提取和跨度标记可使您的模型输出加速标注员工作速度。我们还可以帮助处理从您的 NLP 模型生成的文本评估和后期编辑数据。我们的专业工具和语言专家将为您提供构建适用于任何选定市场的 NLP 模型所需的高质量训练数据。

Tab image

3D点云数据

使用我们直观的标注工具标注多种类型的点云数据,包括 LiDAR、雷达和其他类型的扫描仪/传感器。点云帧(3D 点云和 RGB 图像)可以很容易地用长方体进行标注,以支持复杂的用例,例如自动驾驶汽车。内置机器学习辅助有助于提高标注速度和质量。我们专门构建的 3D 传感器工具使技术领导者能够快速、大规模地准确标注复杂的数据类型。

Tab image

多模态数据

如果没有合适的工具,将来自供应商或众包标注的多个数据集组合在一起可能具有挑战性。我们的数据标注平台可以在一个地方轻松地标注多种类型的数据,而我们的企业级工作流工具使组合和自动化多步骤标注工作变得轻而易举。凭借我们最先进的机器学习驱动的数据标注平台,我们可以为您高度复杂的多模态 AI 项目提供高精度的训练数据。

Tab image

硬件和设备测试

通过寻求硬件/设备测试贡献者的帮助,确保产品在任何大型发布之前都能按预期工作。我们的全球众包群体遍布 170 多个国家/地区,因此随时准备支持您在任何地区的发布。在我们专业的项目经理的帮助下,我们可以帮助制定稳健的测试和评估计划,以确保所有使用场景都经过全面测试并标记任何可改进区域,从而使您的产品发布取得成功。

Tab image

移动定位

来自 200 多个国家/地区的 7 亿多台设备的高质量移动位置数据使您能够执行位置分析并获得可操作的商业智能。你可以利用全球数据源或请求针对特定区域定制的数据。我们的位置数据完全符合 GDPR 和 CCPA。独特的 QuadID 和密集的内部质量控制,您可以确保我们分享的每个事件都是真实的,并提高您的流动性分析的可靠性。

合作案例

Image of caption

数据采集帮助改进领先社交媒体公司平台

项目取得的一项成果是,客户及时发布了其产品所需的数据,满足了用户的需求。通过获得大量高质量数据,该公司快速高效地改进了自己的机器学习模型。事实证明,我们标注人员的地理分布和人口多样性对训练模型非常有价值。与其他数据采集方法相比,众包方法也使该公司能够显著控制项目成本。

全球科技公司利用增强语音系统开辟新市场

通过与澳鹏(Appen)的合作,这家跨国科技公司得以在预期的时间和预算范围内,实现专门针对儿童语音开发 ASR 的目标。澳鹏(Appen)成功地收集和转录了 105 个小时的音频,总计 6 万句话,帮助客户设计、构建和交付他们计划上市的 ASR。该公司已经将声学模型植入新的 ASR 中,并将其应用到一系列专为儿童设计的北美英语教育娱乐平台和应用中。

全球顶级汽车OEM厂商携手澳鹏提升智能座舱ASR 系统

通过与澳鹏(Appen)的合作使该汽车OEM厂商的工程师可以专注于领先车载系统的核心开发工作。我们在汽车行业累积的多年经验,使得我们能够迅速与该汽车制造商团队开展合作,开发出稳定的数据采集和验证程序,而且这些程序能够始终满足他们的需求,进而与其建立了长期的合作关系。

GuildLink帮助患者更轻松地获取患者用药信息

借助我们的文本转语音引擎,GuildLink 成为了全球第一家提供音频版 CMI 的公司,并且至今仍是唯一一家提供此类产品的公司。Paonne 表示:“市场对准确、最新的药物信息的需求与日俱增,通过以多种方式提供信息,我们能更好地满足这一需求。”“在帮助我们以更多方式提供更多信息以及让病人理解他们正在服用的药物方面,澳鹏的文本转语音服务起到了关键作用。”

通过可用数据和注音保护Larrakia语言

为保护Larrakia语言,语言学家Mark Harvey博士与Larrakia Nation Aboriginal Corporation of People和澳鹏协作,旨在改进Larrakia语言可用文本和音频数据语言样本的数据库。

该数据库是保护和复兴Larrakia语言的重要一步,因为最后一位能够流利使用这种语言的人在20多年前就已去世。项目开始时,便建有一个数字化的音频和文本数据库,其中收录了有限的Larrakia的单词、句子和话语。因为这个数据库最终将用于学习和教授Larrakia语言,所以解决数据差异问题和填补数据空白对于保护语言数据的完整性至关重要。

Image of caption

领先的软件供应商优化其全球电商交易渠道

该软件提供商与我们合作设计和部署可用性研究,用多种语言收集来自全球目标市场的用户反馈意见。该调查确定了混淆的领域、技术问题、可用性问题和一般性用户体验改进措施。此外,该调查分析了整个交易渠道,从搜索阶段开始,一直到产品的选择、购买和安装。来自多个市场的受访者针对每一个关键步骤提供反馈意见,并着重阐述搜索和购买体验中常见的和市场特定的缺陷。

领先的社交媒体平台如何实施个性化战略提高内容相关性

试点项目启动时,有 500 名参与者签了为期四周的合同。我们开发了一个可扩展且功能强大的注册模块,它附带可视化的交互式组件。在几周内,客户就能全天候 (24/7) 收到改进算法所需的数据。参与者根据各种因素对每个新闻项目进行标注,包括内容的重要性和作用。该流程指导用户确定每个项目的总体标注,从而允许训练模型对算法进行微调,为所有用户提供更加个性化的体验。

微软必应(Microsoft Bing)如何提高在多个市场的搜索结果质量

我们帮助 Bing 团队迅速拓展新市场。例如,在 2010 年初,我们在两个月内雇佣并培训了几十位数据标注人员。尽管整个项目的优先级在不断变化,但我们能在所有的截止日期之前完成工作,而微软的团队能增加基础架构,使项目变得可持续并不断提高质量。

澳鹏通过大规模标注解决方案为CallMiner提供客户洞察

自建立合作伙伴关系以来,CallMiner一直在使用我们的平台来标注呼叫中心数据的情绪和情感。值得指出的是,我们当时已经准备好了合规的标注员,并且能够处理所需大量数据的标注,从而使CallMiner的研究团队能够腾出时间专注于与自己的角色更相关的任务。我们的高度安全性与合规性使高效、安全地数据处理成为可能。

Dialpad创建数据,为大规模人类对话ML模型提供支持

“我们将供应商改为澳鹏后,仅仅数周时间,我们就发现,标注者的准确率提高到88%,此后,即便模型千差万别,标注者的准确率也一直保持在接近80%或90%的高水平。这真是场巨大的胜利。”

澳鹏助力伦敦政治经济学院LSE采用敏捷方法进行数据标注

在第一个项目中,专家需要数周时间才能完成的标注任务,我们的众包资源只需四五个小时即可完成,并且由于视角多样而减少了有偏见的输出。实验结束时,标注员标注了六个政党的 2 万个句子,每个句子标注 5 至 20 次。借助澳鹏的数据平台,LSE 的研究人员还能用其他几种语言来重现研究,以进一步验证生成的数据。

携手Zefr改善数据洞察的质量和输出效率

Zefr 要找的是一种不过度设计但具有成本效益,并且可以灵活地满足其不断发展的需求的解决方案。2018 年,Zefr 携手澳鹏,借助澳鹏的众包解决方案,Zefr 瞬间就获得了大量可随时投入工作的数据标注人员。数量更多的审阅者和更有效的工作方式,使得Zefr可以快速训练机器学习模型,以输出准确的视频推荐。

Image of caption

领先的社交媒体平台如何实施个性化战略提高内容相关性

试点项目启动时,有 500 名参与者签了为期四周的合同。我们开发了一个可扩展且功能强大的注册模块,它附带可视化的交互式组件。在几周内,客户就能全天候 (24/7) 收到改进算法所需的数据。参与者根据各种因素对每个新闻项目进行标注,包括内容的重要性和作用。该流程指导用户确定每个项目的总体标注,从而允许训练模型对算法进行微调,为所有用户提供更加个性化的体验。

Adobe Stock充分利用庞大的资产组合斩获客户芳心

Adobe需要极为精确的训练数据来创建模型,该模型可以在库存超过1亿张、每天上传数十万张新图片的图库中展现这些微妙的属性。他们使用我们的平台帮助绘制多边形区域,这些区域可能最适合用于英文稿纸(比如大的空白空间或表格)。例如……

搜索引擎公司通过与第三方质量分析团队合作提升搜索相关性,并在全球市场拓展

我们的资深评估和审核人员团队为该计划打下了夯实的基础,也是该计划不断成功的原因。这个团队能为多个供应商提供客观反馈意见,并管理多个通信渠道,向客户提供统一的信息。此外,他们会定期更新指南,以减少评估人员的困惑,并确保所有评估人员都用同样的标准进行评分。通过这种清晰、客观的方法,我们减少了数据中的噪音。

微软必应(Microsoft Bing)如何提高在多个市场的搜索结果质量

我们帮助 Bing 团队迅速拓展新市场。例如,在 2010 年初,我们在两个月内雇佣并培训了几十位数据标注人员。尽管整个项目的优先级在不断变化,但我们能在所有的截止日期之前完成工作,而微软的团队能增加基础架构,使项目变得可持续并不断提高质量。

电子商务公司如何通过(Ad-hoc)临时性评估优化网站测试功能

凭借我们的专业能力和业内资深专家,这家电子商务公司希望我们能帮助其满足临时评估需求。我们的优势包括:多年的项目管理经验;Flexible Projects 库(弹性调度项目执勤表):按需聘请数千名合格的标注员;以及我们的可以无缝支持多个评估项目的平台。

通过 Shotzr 快速识别哪些图像需要元数据定位

仅仅几周之后,Shotzr 就预计,训练的分类器数量会是他们此前最大估算量的 4 倍。在澳鹏平台上完成第一项工作后,Shotzr 识别了超过 1.7 万张不需要附加标签的图片。他们预计,他们可以节省原计划为位置数据投入的超过 6100 万的资产,同时腾出时间专注于可从位置数据获益的图像,并创建新的模型来自动进行位置标记过程。

Image of caption

某家一级汽车软件提供商构建更智能的车载信息娱乐系统

我们负责提供自然语言数据和文本数据的收集服务,涵盖了系统在现实世界中可能遇到的所有场景和变化。通过与市场上按需提供服务的母语人士合作,我们能够针对任何给定场景在新的位置和语言中快速扩展 ASR 功能。此外,由于该提供商在音频记录质量方面有着严格的标准,因此,我们在不同的地点和录音室均采用相同的高级记录程序,并监督它们是否符合汽车行业所用的多种语言的质量标准。

MediaInterface利用成品数据集拓展法国市场

我们的可利用成品数据集支持法语词汇的能力帮助了MediaInterface,帮助他们开发产品的语言特定部分,从而扩展到一个全新的市场,并且凸显了进入未来市场的可能性。现在,MediaInterface全面覆盖了医疗机构对基本口述和语音识别的需求,为法国客户提供了较高的可信度。

搜索引擎如何通过评估本地搜索内容优化企业清单

借助遍布全球各地的当地市场众包人员,我们大大减少了因时区差异、语言障碍以及文化和地理因素而产生的潜在数据噪声。借助我们专有的质量和性能评估系统,企业快速、清晰地向客户回传了最高质量的数据。我们始终如一地提供数据,以满足客户确定根本原因、调整算法并自信地向用户提供本地清单的需求。

顶级软件供应商通过值得信赖的合作伙伴开发全球 CLDR

我们参与 CLDR 并大获成功,受到了客户的好评。我们能够在受限的市场中获得资源,并安排合适的项目经理负责组织和指导近 200 名参与者完成多个复杂的阶段,包括数据输入、投票和论坛参与等阶段。

移动设备制造商借助澳鹏当地众包标注员大幅提高地图软件的精准性

这个项目的成功在很大程度上要归功于我们为客户量身定制了测试计划,以满足客户的需求。由于时间安排很紧,并且客户代表需要前往不同的地方会见测试人员,因此,我们需要严格管理时间表。我们的资深项目经理与客户保持密切联系,随时通知他们时间表的任何变化,以便快速做出调整,在截止日期之前完成测试。

FlamingoAI 携手澳鹏部署全自动化虚拟助理提升销售转换率

FlamingoAI 发现与我们合作的好处不仅仅是简单的节省时间或成本:“这是一种全面的能力。机器学习企业不可能一边开发核心 IP,一边又像澳鹏这样获取关键数据。最终,你必须专攻其中一项。在澳鹏)的帮助下,我们能够专注于自己的业务,而他们负责数据寻源。”

Image of caption

大型游戏公司携手澳鹏提高聊天机器人质量

澳鹏Appen平台具备可以轻松集成到对方业务流程中的功能和工具。该平台无需依赖各种Excel文档来整理数据信息,而是将信息统一整理到一个中央数据存储库中。借助于澳鹏Appen平台,该游戏公司的标注及项目进展效率大幅提升。团队负责人可以通过平台追踪并评估标注员的工作情况,例如任务花费时间、各标注员之间的表现比较等。平台还可以导出报告,比较标签准确度等关键数据。

Infobip使用高质量数据集创建对话式AI聊天机器人

一些Infobip的客户通过Infobip的帮助构建最佳版本的聊天机器人。为了满足客户的需求,Infobip需要大量的数据。这类机器学习模型的最佳训练数据是覆盖全球且意图各异的众包数据。Infobip的Answers产品面临的挑战是,在短时间内收集高质量的数据集。Infobip需要高质量数据集的高效供给,并保证数据集质量得到适当验证。

Image of caption

HERE Technologies以前所未有的速度创建数据、提高地图整体准确性

HERE的一项既定目标是识读地球上的每一个路标。这既包括这些路标的实际含义如:转弯警告、限速、鹿通过区域等,还包括这些路标的实际位置。了解路标相对于道路的精确位置至关重要,因其可以使车辆更准确地确定其所在的位置以及某些规则(例如限速)发生变化的位置。

GumGum找到文本和图像标注及分类的更理想方式

利用澳鹏平台,先前无编码经验或工程背景的GumGum团队成员也能创建新的标注作业,尤其在标注作业更为复杂的情况下。此外,GumGum现在还可以为NLP相关项目创建外语数据标注任务。我们有可以从事标注工作的母语标注员或精通相关语言的标注员。澳鹏已成功完成多个语种的标注任务,包括西班牙语、法语、德语和日语等。

平台部署方式与技术支持

Icon image

公有云&混合云部署

平台可以快速开通客户专有工作目录。

如果需要将标注源数据和结果数据与平台隔离,客户可选择自行部署并维护与云平台继承的私有文件服务,源数据不会下载到Appen平台。

Icon image

私有化部署

平台支持私有化部署与工具专门开发,可以为您的需求进行量身定制,技术团队将全程支持您的部署需求。

Icon image

工作流

组建各司其职的标注团队和质检团队,并通过可灵活定制的工作流引擎将各团队串联。最新的工作流支持在各个节点定义数据分发及驳回的路由逻辑,且实时报表可确保项目质量和进度尽在掌握。

Icon image

Open API

MatrixGo搭载面向开发者的Open API,通过和平台Open API集成,开发者可以将数据按批次自动推送到平台并在标注完成后自动拉取标注结果。

最新的机器学习辅助标注工具

我们拥有最新的标注工具套组,并可以根据您的需求进行工具定制。

了解标注工具

数据安全保障

澳鹏通过了所有主要的数据安全认证,并坚持保护客户数据以及采集的第三方信息,为您的数据安全保驾护航。

了解数据安全保护措施
Language