数据标注的类型有哪些?

构建像人类一样的AI或ML模型需要大量训练数据。要使模型做出决策并采取行动,就必须对其进行训练以理解特定的信息。训练数据必须针对特定用例予以适当分类和标注。有了高质量的人工标注数据,企业即可构建和改进AI应用。企业由此将得到客户体验增强的解决方案,如产品推荐、相关搜索引擎结果、计算机视觉、语音识别、聊天机器人等。

数据的主要类型包括:文本、音频、图像和视频。

文本标注

文本是最常用的数据类型。根据2020年度《AI和机器学习全景报告》,70%的公司均离不开文本。文本的数据标注包括各种标注,如情绪、意图和查询。

情绪标注

情绪分析评估态度、情绪和观点,因此,拥有正确的训练数据非常重要。为了获得这些数据,经常要用到人工标注者,因为他们可以评估所有网络平台(包括社交媒体和电子商务网站)上的情绪和适度内容,并能够标记和报告中亵渎、敏感的关键字或新词。

意图标注

随着人们越来越多地使用人机交互进行交流,机器必须能够理解自然语言和用户意图。多意向数据收集和分类可将意向划分为若干关键类别,包括请求、命令、预订、推荐和确认。

语义标注

语义标注既可以改进产品列表,又可以确保客户能够找到想要的产品。这有助于把浏览者转化为买家。语义标注服务通过标记产品标题和搜索查询中的各个组件,帮助训练算法,以识别各组成部分,提高总体搜索相关性。

命名实体标注

命名实体识别(NER)系统需要大量手工标注的训练数据。像澳鹏这样的企业在广大用例中会应用命名实体标注功能,例如帮助电子商务客户识别和标记一系列关键描述符,或帮助社交媒体公司标记实体,如人员、地点、公司、组织和标题,以帮助更好地定位广告内容。

实际用例:帮助改进微软必应在多个市场上的搜索质量

微软的搜索引擎必应需要大规模的数据集以不断提高其搜索结果的质量,这些搜索结果需要与其所服务的全球市场在文化上相关联。我们取得的成绩超出预期。除了交付项目和计划管理,我们还提供了通过高质量数据集在新市场中快速增长的能力。(点击此处阅读完整案例)

音频标注

音频标注是对语音数据的转录和加时间戳,包括特定语音和语调的转录,以及语言、方言和说话者人口统计数据的识别。各用例都各不相同,有些用例需要一个非常具体的方法:例如,攻击性的语音指示器,还有安全和紧急热线技术应用中标记玻璃破碎等非语音声音。

实际用例:Dialpad的转录模式利用我们的平台进行音频转录和分类。

Dialpad改善了与数据的对话。他们收集电话音频,用内部语音识别模型转录这些对话,并使用自然语言处理算法理解各对话。他们利用这种一对一的对话来确定每个销售代表(以及整个公司)做得好和做得不好的地方,所有这些都是为了让每个电话都能成功。Dialpad曾与澳鹏的一个竞争对手合作了六个月,但却难以达到使其模型取得成功的准确性阈值。Dialpad更换供应商后,仅仅几周时间,就初见成效,他们创建了所需的转录和自然语言处理(NLP)训练数据,使模型取得成功。

图像标注

图像标注在广泛的应用中至关重要,包括计算机视觉、机器人视觉、面部识别以及依赖机器学习来解释图像的解决方案。要训练这些解决方案,必须以标识符、标题或关键字的形式为图像分配元数据。

从自动驾驶车辆使用的计算机视觉系统和挑选和排序产品的机器,到自动识别医疗状况的医疗应用程序,有许多用例需要大量带标注的图像。通过有效地训练这些系统,图像标注可以提高精度和准确性。

澳鹏图像标注脸部识别

实际用例:Adobe Stock充分利用庞大的资产组合让客户满意

Adobe Stock是Adobe的一个旗舰产品,它是精选的高质量库存图像集。图库本身规模惊人:拥有超过2亿的资产(包括超过1500万个视频、3500万个矢量、1200万个媒体资产,以及1.4亿张照片、插图、模板和3D资源)。每一项资产都需要是可发现的。澳鹏提供极为精确的训练数据创建模型,该模型可以在库存超过1亿张、每天上传数十万张新图片的图库中展现这些微妙的属性。这些训练数据帮助Adobe为其庞大的客户群提供最有价值的图像。用户无需滚动浏览类似图片的页面,即可快速找到最有用的图片,从而腾出时间创建有力的营销材料。(点击此处阅读完整的案例分析)

视频标注

人工标注数据是机器学习成功的关键。在管理主观性、理解意图和处理歧义方面,人类比计算机要强得多。例如,决定搜索引擎结果是否相关时,需要许多人的输入才能达成共识。在训练计算机视觉或模式识别解决方案时,需要人工识别和标注特定数据,例如概括图像中包含树木或交通标志的所有像素。使用这些结构化数据,机器可以学会在测试和生产中识别这些关系。

实际用例:HERE Technologies以前所未有的速度创建数据以微调地图

HERE的目标是创建精确到几厘米的三维地图,自上世纪80年代中期以来,HERE一直是这一领域的创新者,为数百家企业和组织提供详细、精确和可操作的位置数据和见解。HERE胸怀大志,即为数万公里的行车公路标注地面实况数据,为其信号检测模型提供支持。然而,通过将视频解析为图像来实现这个目标根本是天方夜谭。我们的机器学习辅助视频对象跟踪解决方案为这一雄心壮志提供了完美的解决方案。这是因为,它结合人类智能与机器学习,极大地提高了视频标注的速度。(点击此处阅读完整的案例分析)

澳鹏能为您做些什么

我们澳鹏拥有超过20年的数据标注经验。我们将人工辅助方法与机器学习辅助相结合,提供您所需的高质量训练数据。我们的文本标注、图像标注、音频标注和视频标注将让您满怀信心地大规模部署AI和ML模型。无论您有何数据标注需求,我们的平台和托管服务团队均将随时帮助您部署和维护AI和ML项目。

立即联系我们

Language