关于人工智能和数据的未来五大预测

近年来，人类对人工智能的未来一直有着美好的憧憬。由于这项新技术存在于文学和学术领域，应用于现实世界问题并转向现实世界解决方案，因此必须考虑该技术的真正能力和使用场景。对于AI而言，2021年是言过其实的一年。尽管2021年反应不尽人意，预期承诺也未兑现，但它是为AI奠定基础的一年。2021年，人工智能基础结构形成，人们可以在此基础上进行建设和改变，使AI更负责任、更高效且更具成本效益。2022年将是从过去的错误中吸取教训并构建一个更美好的AI技术世界的一年。下面是我们对AI未来的五大预测，以及这些变化对AI技术的全面成功至关重要的原因。关于AI未来的更多预测，请下载《2021年人工智能与机器学习的现状报告》。

负责任AI从愿景走向基本需求

2021年，AI行业存在“纸上谈兵”的问题。虽然2021年有关负责任AI的时事短评和思想领军者文章（包括我们自己的世界经济论坛议程博客文章）多达几十篇，但负责任AI准则的采用率很低。根据澳鹏《2021年AI全景报告》，仅有41%的技术人员和33%的企业领导者对AI伦理心存担忧。 2022年，随着风险的升高，企业将开始认识到负责任AI可以为企业创造更好的收益。在理解负责任AI的重要性方面，企业领导者将赶上技术人员。而且，他们将开始看到早期投资如何为业务带来回报。如果负责任AI准则得到正确实施，这可以保护企业品牌，并确保AI项目按预期开展。进入2022年，我们还拥有一套完善且经过全面审查的负责任AI准则。其中包括：

保持数据客观；
公平对待数据采集者和数据标注员；
AI项目需要促进社会发展和避免造成社会危害；

随着企业领导者在认识到负责任AI的重要性方面赶上技术人员，政府也不甘落后。政府开始认识到不负责任AI可能带来的潜在危害。随着这一认识的出现，监管也将随之而来。鉴于数据隐私的先例，如果私营企业不规范其对社会造成的危害，政府应介入管控，迫使企业采用合乎道德和负责任的AI。实施负责任AI的另一个领军者是Gartner。该公司预计，到2023年，所有为AI开发而聘用的人员均需要具备负责任AI方面的专业知识。

AI生命周期数据对AI项目的重要性

近期数据和趋势显示，AI市场正趋于成熟，在世界范围内越来越普遍。AI助力企业运营，塑造产品开发。根据澳鹏《2021年AI全景报告》，AI预算在过去一年有所增加。这意味着企业领导者认识到企业的成功离不开对AI的投资。 2021年的主要收获之一是，即使是那些拥有成熟AI数据科学领域的企业，也面临数据问题。企业逐渐意识到，AI模型开发、训练和再训练所需的数据量巨大。由于成功的AI生命周期需要大量数据，因此许多企业选择与外部训练数据提供商合作，以大规模部署和更新AI项目。大多数企业与外部数据伙伴合作，这表明企业在进行持续的数据获取、准备、评估和生产方面存在挑战。AI项目比以往任何时候都需要更多的数据和更快的速度。这仅可通过自动化实现，特别是在数据获取和准备方面。这种对数据的需求将于2022年发生转变。公司仍然需要海量数据，但一个全新的领域将应运而生。AI生命周期的数据将侧重于工具和最佳实践的开发，使企业能够管理整个AI生命周期，包括从数据采集到数据版本控制，一直到模型再训练。

合成数据的兴起

随着需要越来越多的数据以满足大量数据的AI计划和模型再训练，该行业将迎来企业获取数据的新方案。虽然外部数据合作伙伴是这些公司目前快速获取更多所需数据的唯一途径，但另一种解决方案即将诞生。生成式AI可以创建合成数据，这些数据可用于训练AI模型。尽管目前合成数据仅占市场数据的1%，但Gartner认为，到2025年，生成式AI创建的数据将占所有数据的10%。目前生成式AI正被用于解决关键挑战，例如为AR/VR生成3D世界和训练自动驾驶汽车。 Gartner还预测，到2024年，合成数据的使用将使机器学习所需的真正数据量减半。合成数据的使用补充并加速了数据采集过程，因为较之与受负责任AI准则约束的真实数据，合成数据在处理、安全性和标注方面的要求更低。 2022年将有更多企业和机器学习模型使用和试验合成数据。生成式AI模型可以自我学习并生成新数据，能节省企业成本并提高企业效率。很明显，这些优势正是许多企业对生成式AI和合成数据充满期待的原因。而且，随着越来越多的公司尝试使用合成数据和生成式AI，未来几年将开发新的用例。

加速开发内部效率用例

行业内的好消息：根据澳鹏《2021年AI全景报告》，AI预算呈上升趋势。74%的受访者表示，他们的AI预算超过50万美元。此外，67%的企业领导者表示他们的AI项目已经“呈现出可观的投资回报”。随着预算的增长和用例种类的增加，最受欢迎用例（62%）为支持内部运营，这就不足为奇了。次常见用例遵循类似模式，企业正在利用AI提升内部运营效率：

55%的受访者希望加强对企业数据的理解
54%的受访者希望提高内部业务流程的生产率和效率

随着公司在2022年转向使用AI和机器学习模型提高内部效率，他们将面临重大的数据挑战。公司需要了解数据如何在企业内运行，以及数据在这一过程中会发生什么变化。公司意识到这点后，他们需要采取两项措施：

更多地关注部署平台，以便消除数据孤岛和集中管理数据。
内部协作或与合作伙伴合作，制定战略，以便能够在整个AI生命周期中管理数据。

如果企业可以采取这两项措施，那么您的AI计划将更加有效和高效。

模型评估与调整成为主流

AI技术界逐渐认识到建立AI学习模型并非一劳永逸。模型需要定期评估、调整和再训练。2022年，这一认识将成为业界共识。机器学习模型是动态的，因此，不能仅仅将其部署和交托给设备本身。正如汽车需要定期调整校准，机器学习模型也会随着时间的推移而产生偏差。久而久之，这种偏差会使机器学习模型给出的结果越来越不准确。机器学习模型必须根据其持续结果以及对基础结构、数据源和业务模型的变化进行审查和更新。根据我们的报告，人们对于机器学习模型必须予以定期审查和更新的认知在2021年取得巨大飞跃。我们发现：

87%的企业至少每季度更新一次模型，高于去年的80%
57%的企业至少每月更新一次模型
91%的大型企业至少每季度更新一次模型
使用外部数据提供商的企业最有可能每月更新一次模型

随着越来越多的企业拥有机器学习模型，他们开始意识到，一旦开始，就不可置之不理。随着公司使用机器学习模型，他们将建立并实施协议以应对偏见和进行常规调整。虽然AI技术和机器学习模型已经得到广泛应用，但这只是第一步。现在，对于公司来说，依靠外部数据合作伙伴和教育资源学习如何管理和提升AI和机器学习的使用至关重要。随着AI的发展，我们也看到人类的进步——从谈论负责任的AI转向实际实施负责任的AI项目。企业开始认识到数据的关键性。随着人们认识到数据对AI项目成功的重要性，人们开始利用外部数据合作伙伴获取整个生命周期的数据，并使用更具成本效益和安全性更高的合成数据。此外，企业开始意识到，他们使用AI工具的最佳方法之一是优化自己的内部流程，这些模型在部署后不能置之不理，而是需要定期更新和调整。如果您想了解未来几年AI和机器学习的更多内容，请务必阅读《2021年AI与机器学习现状报告》，以获取更多信息。

关于人工智能和数据的未来五大预测

负责任AI从愿景走向基本需求

AI生命周期数据对AI项目的重要性

合成数据的兴起

加速开发内部效率用例

模型评估与调整成为主流

您可能感兴趣的其他博客

博客文章

大模型：使用网络爬取以及机翻数据的危害

博客文章

案例 | 澳鹏自动驾驶标注方案入选虎嗅智库行业报告

博客文章

再获殊荣 | 澳鹏Appen获评2024全球数据标注领域Top领军者