人工智能数据获取与数据管理指南

成功部署AI实践典范

人工智能的部署离不开大规模高质量训练数据的注入,大数据的管理制度也随着人工智能的发展而日益完善,数据采集与治理更是企业做AI部署策略时的两大复杂因素。 有几项最佳实践可以作为构建和部署有效的AI解决方案的典范。建立长期全面的AI治理框架(尤其是围绕数据治理)以及可扩展的数据流程也会是企业构建AI解决方案必经历程。 本文会围绕AI治理的主要考虑因素进行细分,并逐步指导训练数据流程的创建和维护。  

定义AI治理

AI治理是监督一家企业AI使用和实施的框架。对于如何定义这一框架,不同企业受其所在行业、企业内部条例、监管规定以及当地法律的影响。在任何情况下,都不存在放之四海而皆准的方法;各企业应根据自身需求选择最适合的方案。一般来说,框架中通常包括AI治理的三大关键领域:

性能

如何衡量模型的性能是开发过程中的重要因素。开发团队应制定一系列指标,从初始模型构建到部署后,同时追踪这些指标,确保模型按预期执行(继续执行)。上述指标需要包含几个关键因素: 准确性 对于准确性,一方面需要考虑模型的精度和召回率。进行预测时是否满足期望的置信度阈值?如果答案为否,则需进行迭代。另一方面,还要考虑模型是否具有准确预测所需上下文的背景。这时,数据会给出答案,但要确保其中包括所有使用场景和已知的边缘案例。 偏见/公平 纳入衡量模型性能偏见的指标。目前可用第三方工具帮助跟踪此项指标。偏见可能来自采样(即如何收集数据,从何处收集以及由谁收集),也可能来自数据标注员。 例如,顶尖的面部识别软件呈现出了,肤色较深的人识别错误率高于肤色较浅的人。例如,黑人女性的识别错误率超过25%,而白人男性仅为1%。问题在于收集的数据(有色人种的代表性不足)以及对数据进行标注的人(主要是白人),由于缺乏多样性,而导致最终解决方案结果不尽人意。 在AI数据采集和治理框架中实施最佳实践方案可以减少AI中的偏见

透明性

根据相关的法律法规,通常会要求企业展示AI模型如何做出决策的。《通用数据保护条例》(General Data Protection Regulation,简称GDPR)就是欧盟赋予消费者透明性权利的一个示例。即使不受监管,AI模型的可解释性对于终端用户和可重复性仍至关重要。构建模型时,请完整记录其工作方式。治理框架可以提出文档实践以及对透明性的承诺。

伦理标准

伦理标准是在AI治理框架中很常见的第三个领域。伦理标准在整个AI实施中都发挥着作用,首先要确保解决方案的意图符合伦理标准,最后还要确保模型按预期持续运行。在这一部分中,要定义企业从试点到生产,负责任的AI是什么样子,以及将用怎样的流程来确保需求得到满足。 踏上数据之路,在整个信息供应链中利用数据的商业价值的公司将需要驾驭自我数据采集服务分析的挑战。而元数据管理和数据目录的关键性不能被削弱。 我们将在下一篇中详细介绍人工智能数据管理须知,点击阅读。
Language