数据标注能力


通过机器学习辅助工具规模化地提供更快速的数据标注



Image

数据标注能力



高质量的数据标注是成功训练任何 AI/ML 模型的关键,因为这是模型学习如何做出判断的基础。澳鹏的平台将规模化的人类智慧与高级模型相结合,能够标注各种原始数据,从文本到视频再到音频,进而为您的模型构建准确的数据基础。

我们能够针对任何标注需求提供相应的技术和众包资源,无论是采集、分类、标注、转录还是翻译,我们均能应对自如。





基于机器学习



我们的大多数标注工具都内置了机器学习辅助 (MLA) 功能,可提高标注的速度和准确性。机器学习辅助功能将机器预测与人工标注相结合,因此无需从头开始进行判断,机器学习模型会提出一个判断建议,人工贡献者只需审核和编辑建议即可,因此可节省时间和精力。

由于人工标注者只需审核机器预测即可,无需从头开始进行判断,因此可大幅缩短数据标注时间。如此一来,您不仅能以可扩展的方式快速部署模型,而且能够时刻保持安心,因为您知道我们的团队会在需要时帮助您确认并纠正模型预测。


Image Image




Image

数据标注工具




图像和视频的标注和转录


我们支持各种计算机视觉工具,包括对象跟踪、像素级语义分割和图像转录。所有这些工具都支持自带模型假设,以实现更快的标注和更好的模型验证。



文本标注与翻译


我们提供大规模的文本分类和 NLP 标注,包括命名实体识别和语音标注。所有这些工具都支持自带模型假设,以实现更快的标注和更好的模型验证。我们还能为机器学习项目提供计算机辅助翻译。



音频标注与转录


我们提供了一个可扩展的音频数据管道,包括收集、分割、事件标注和转录。所有这些工具都支持自带模型假设,以实现更快的标注和更好的模型验证。



数据采集和扩充


我们支持广泛的音频、网站、文本和图像数据采集管道。支持的用例包括为 ASR 和文本类的对话代理创建训练数据。我们可以看到的任何数据都可以添加元数据或其他信息。我们使用 ML 模型来验证人工所提交输入的质量,进而快速完成大规模数据采集项目。



数据分类


无论是进行情绪分析、内容审核还是搜索相关性调整,我们都能够提供超大规模的数据分类管道,可满足您的任何数据分类需求。专有的质量控制技术可以轻松帮助您实现 95% 以上的精度和精确度。



点云标注


我们的点云标注工具能够为无人驾驶汽车、制造及农业等行业提供长方体标注。机器辅助标注工具能够快速、准确地完成大规模标注。







数据标注能力的类型


Image Image


收集


数据类型:文本、图像、音频、视频、URL

从网络上收集用户生成的内容和链接,包括音频、图像和网站,为您的数据计划提供帮助。我们支持复杂的数据用例,例如车内音频收集,或聊天机器人程序的文本采集,以及更直接的图像/音频收集和信息提取任务。

分类


数据类型:文本、图像、音频、视频、点云

使用我们的标注平台,您可以对任何种类的数据进行大规模分类。对用户提供的海量内容进行审核和分类,同时确保精度。常见的用例包括内容审核、情绪分析、搜索相关性、产品分类和对象分类。

标注


数据类型:文本、图像、音频、视频、点云

使用我们的标注工具对图像、文本、视频、点云和音频进行标注。无论是简单的边界框还是音频分段,我们都可以通过我们最先进的平台为您的标注提供支持。我们还支持 NER 等文本标注和语音标注。我们的许多工具都具有机器学习辅助功能,因此与仅使用人工标注相比,标注的效率和准确性更高。您可以在我们平台的模板库中找到所需模板。

转录


数据类型:图像、音频、视频

您可以使用各种服务转录文档、文档图像或网站信息——无论是单个字段还是多个页面,均可高效转录。我们还提供音频转录服务,帮助扩展您的自然语言处理 (NLP) 和音频语音识别 (ASR) 程序。

翻译


数据类型:文本

我们拥有一支由 100 多万名熟练贡献者组成的众包资源团队,涵盖 180 多种不同的语言。借助内部的专业语言专家小组,我们有足够的能力翻译大量数据,以可靠地训练您的 AI 和 ML 模型。