- 可用性
- 易用性
- 完整性
- 安全性
训练数据流程和维护
正如我们反复提到的数据流程,了解构建和维护这些流程的最佳实践也很有帮助。让我们贯穿整个数据流程:1.数据采集
从一个或多种来源采集数据。这些数据可能包括内部资源、成品数据集、开源数据集或第三方供应商。数据采集的目标是为最终用户提供涵盖所有可能的使用场景和边界用例的源数据。确保您的数据来源合乎道德规范。2.数据标注
在数据流程的下一步中,进行数据标注(例如,图像分类、音频转录或其他类型)。选择数据标注员至关重要;他们需要具备不同的背景和观点,以减少可能产生的偏见。对于大型标注项目,企业通常要依靠全球各地的第三方众包人员。3.数据审计
虽然在整个过程的各个阶段都应进行数据审计,但在标注数据之后,确保数据标注准确无误、无偏见尤其重要。数据标注应考虑到所有使用场景。完成数据审计后,如果标注数据符合制定的准确性标准,则可使用这些数据训练并开始部署模型。4.模型更新
很少有用例依赖于静态模型。在大多数情况下,需要定期地更新模型,以反映真实情况和不断变化的数据。数据流程将在部署后持续提供服务。为了避免模型偏见或停滞,需要不断创建新的训练数据。模型维护的组成部分经常被忽视,但是对于实现AI的长期成功至关重要。 我们以自动驾驶汽车综合数据流程为例,来分析一下可能发生的情况。摘要:AI最佳实践
需要强调的是,人工智能数据采集和治理框架是构建企业人工智能战略的基础。此外,在整个模型构建过程中,还有很多问题需要研发团队来回答。从较高的层次上讲,这些问题通常涉及以下领域:- 了解痛点。AI是否能够解决客户痛点?
- 理解数据。是否拥有训练AI算法所需的所有数据?
- 确定关键指标。在准确性、效率、成本节约、偏见等指标中,哪些是模型成功与否的标志?
- 审计性能。有办法识别模型偏差吗?
- 迭代。即使在部署模型之后,是否仍在不断地重新训练和调整模型?