数据采集和数据集


20多年致力于为全球最具创新精神的企业提供训练数据



Image

面向 AI 项目的海量可靠训练数据



我们提供的数据采集服务,提升规模化机器学习。作为训练数据服务的行业领先者,我们能够快速交付涵盖多种数据类型大量优质数据,包括图像、视频、语音、音频和文本,以满足客户特定 AI 项目的需求。

我们提供的多种不同类型的数据采集解决方案和服务类:

Image

数据采集服务


我们的数据采集服务既可以作为一项独立服务提供,也可以作为多组件可交付成果(例如 ASR 语音数据集、TTS数据集)的中一部分予以提供;此类数据集包括音频数据、转录、发音词典和语言特定文档。我们的数据采集服务涵盖了各种环境(例如工作室、家庭、办公室、车内、公共场所等),适于各种数据类型(语音、文本、图像、视频)并使用多种采集方法(众包、集中处理、大众媒体)。

选择澳鹏作为 AI 训练数据提供商的优势:

  • 所有采集的 AI 训练数据遵守法律法规 ,符合 GDPR 要求
  • 根据我们的公平薪酬政策,参与者将会获得公平的报酬
  • 融入了 20 年丰富专业知识的端到端托管服务,包括采集设计、大规模现场操作、数据质量监控 (QA) 和标注服务
  • 依托全球100多万技能娴熟的众包资源,覆盖全球市场,支持 180 种语言和方言


了解更多
Image

成品数据库

我们的语音识别数据库和文本语料库获得授权许可,可助力快速扩展您的语音识别产品。我们的高质量数据集包括:

  • 用于广播、呼叫中心、车内和电话应用的完全转录语音数据集
  • 通用和特定领域的发音词典(例如名称、地点和自然数)
  • 带有 POS 标签的词典和词表
  • 标注了形态信息和命名实体的文本语料库

我们的成品数据库涵盖了各种数据类型(语音、文本、视频、图像等)。您也可以联系我们,探讨构建一款可以满足广泛市场需求的新的数据集。



了解更多
Image

开源数据集



由澳鹏整理的可供免费下载的数据集,适用于整个数据科学和机器学习社区。每个数据集的标注模板均可复制,因此您可以根据需要在平台上对其进行扩展。每个数据集都可以找到原始数据、任务设计、描述、说明等。



了解更多