训练数据的误差:如何识别和避免常见的数据误差

将人工智能与传统软件开发进行对比很有帮助。在传统软件开发中,程序员只需输入固定代码(即每次使用相同代码运行软件,产生同样的运行结果)。但是,在AI开发中,最重要的不是代码,而是数据,尤其是数据标注。

高质量且标注准确的数据对于构建高性能AI模型至关重要。质量差的数据往往难以识别。为说明这一点,让我们首先定义什么是训练数据。各数据单元均包含一个文件(图像、文本、音频或视频片段)、文件属性(分配给文件的赋予其意义的标注)以及标注属性(包括标注时间、标注者及标注条件)。

例如,假设我们要构建一个使用激光雷达(LiDAR)数据的模型。LiDAR通过发送脉冲捕捉其与目标物体之间(如汽车或行人)之间的距离。使用LiDAR时,标注员的示例任务可能是围绕汽车绘制一个三维边界框或长方体。该模型的训练数据可能是个 JSON 格式的代码文件,详细说明了长方体位置、高度和宽度及包含的内容(在本例中为汽车)。在此标注过程中,数据误差发生机率非常高。通过了解这些潜在数据误差,有助于建立完整且具有代表性的数据集。

车辆标注

三种常见数据误差

澳鹏总结了标注过程中常见的三种数据误差,以下为每种误差的详细介绍:

1.标注误差

标注误差是高质量数据开发过程中最常见的误差之一,而且有好几种类型。例如,想象一下,如果数据标注员接收的任务是:在图像中围绕奶牛绘制边界框,则预期输出是围绕每头奶牛的紧密边界框。以下为完成该任务过程中可能会发生的几类标注误差:

标注缺失:标注员并没有为每头奶牛绘制边界框,出现漏标现象。

标注粗略:每头奶牛的边界框不够紧密,牛与边界框之间存在多余空隙。

指令误解:标注员为整个牛群绘制了边界框,而不是分别为每头奶牛绘制边界框。

遮挡处理:标注员不仅围绕可见的奶牛绘制边界框,还围绕预计体型的部分隐蔽的奶牛绘制边界框。

在许多类型的项目中,均可能出现这些类型的误差,而避免这些情况的关键就是向标注员传达清晰的指令。

2.训练数据不平衡

您需要仔细考虑训练数据的构成。不平衡的数据集会导致模型性能出现偏见。以下情况会出现数据不平衡:

类别不平衡:如果数据集不具代表性,则会出现类别不平衡情况。如果您正在训练您的模型识别奶牛,但仅使用在阳光明媚的绿色牧场上的奶牛图像数据,则您的模型将很好地识别这些条件下的奶牛,但对于其他条件下的结果则不尽如人意。

数据的时效性:随着现实世界的发展,模型会日趋退化。冠状病毒就是个很好的现实示例。如果在2019年搜索“corona”,则搜索结果页头条很可能是科罗娜(Corona)啤酒。但在2021年,搜索页面全是关于冠状病毒的新闻文章。因此,模型需要根据新数据定期更新,以适应现实环境的变化。

3.标注过程中的偏见

在谈论训练数据时,常会提到标注偏见。如果聘用一组同类的标注员,或需要专业知识和背景来准确标注数据时,则可能会在标注过程中引入偏见。例如,标注员接收到这样的一项任务:对图片中的早餐进行标注。数据集由世界各地的流行菜式图片组成:英国的黑布丁、荷兰的巧克力碎(洒在吐司上)、澳大利亚的维吉麦酱。如果让美国标注员来标注这组数据,他们可能难以辨认这些菜式,而且肯定会对它们是否是早餐做出错误的判断。因此,数据集的标注结果会带有美国标注员的偏见。在该示例中,正确的做法应是聘用世界各地的标注员,以确保捕捉每种文化菜肴的准确信息。

 

避免数据误差

作为一名AI从业者,可以采取哪些措施避免上述常见数据误差?在整个数据标注过程中实施质量检查,以确保在数据对模型产生影响前,发现及修正数据误差。在标注员提交标注结果前,利用AI仔细检查其判断(即智能标注方法)。澳鹏的自主研发数据标注平台拥有智能标注功能,可以由人工智能辅助进行预标注,提醒标注员标注质量,以及辅助进行质量检验。了解我们的标注平台,或联系我们了解我们如何保证训练数据的质量。

此外,请务必使用人机协同方法监控模型性能以免出现任何偏见。减少偏见至关重要。除了聘用多元化的标注员外,还有其他几种方法可以消除数据偏见,点击链接了解如何消除AI数据中的偏见。

如果您想了解更多关于如何保证训练数据质量的信息,澳鹏网络研讨会:如何提高人工智能的训练数据质量,深入浅出地讲述了如何提高数据质量,分享了我们的经验以及一些建议。

Language