2021年人工智能行业五大市场趋势

经过不断总结过去的经验和教训,人工智能领域一步步攻克发展难关,整个行业呈现出蓬勃发展的态势。越来越多公司开始改变数据在人工智能应用中扮演的基本角色。因此,在数据这一子领域所出现的许多发展趋势值得关注。这些趋势说明人工智能公司仍然面临着发展障碍且拥有着可行的成功之道。

以下是今年人工智能市场的五大显著发展趋势:

1.人工智能发展的主要障碍:高质量数据

大多数人工智能项目依然没有投入到“实战”,这表明很多公司在人工智能应用方面仍面临重大挑战。这其中一个最主要的挑战是如何获得高质量数据。在最近一份调查报告中,受访者表明了人工智能应用的两大瓶颈:一是缺乏技术熟练的员工;二是缺乏数据资源(或数据存在质量问题)。这并不令人意外。在人工智能项目研究过程中,数据科学家将大量时间花费在数据收集与准备上,且数据质量对人工智能模型的应用效果起着至关重要的作用。虽然尽快解决该问题非常重要,但这需要投入大量资源。https://www.oreilly.com/radar/ai-adoption-in-the-enterprise-2021/

因此,只要能够解决数据问题,人工智能公司就能极大地提升其市场竞争力。一份最新的人工智能报告指出,目前,人工智能公司在探索多种解决方法,譬如聘用外部数据供应商,以获得所需的知识和技能。

2.更精准的人工智能用例

制定高效解决方案,重中之重是人工智能用例的精准。人工智能公司已意识到这是非常关键的第一步,开始缩小其人工智能模型所针对的业务范围,并将目标具体化。为证明此点,以下列举了澳鹏最近所参与几个用例精准的人工智能项目:

商务术语:一家公司构建了一个人工智能模型,能对商务术语提出改进建议或替换术语。这些商务术语之间仅有着细微的差异,使澳鹏在获取大量数据时碰到挑战。

身体动作:一家公司在研究个人训练自动化模型时遇到一个障碍,即动作轮廓会随着年纪增长而改变。为解决该问题,该公司要求澳鹏录制老年人翻跟斗的视频并作相关标注。

语言的长尾效应(小语种):新冠疫情相关信息需要在全球内发布,但翻译技术并不支持所有语言。因此,澳鹏开展了针对罕见语种的数据收集和标注工作,比如达里语、丁卡语及豪萨语等。

上述例子表明了人工智能公司正在如何精准化其人工智能用例,这也让我们更加深入地理解了应如何使用训练数据以及应收集的数据类型。

3.人工智能从以模型为中心向以数据为中心转变

是优化代码,还是提升训练数据质量?这是过去几年间人工智能行业关注的前沿问题。几大著名实验表明,数据是关键之处。目前,我们也已看到人工智能行业从以模型为中心向以数据为中心转变的趋势。以模型为中心的人工智能是指利用现有数据来构建模型,以弥补任何无关因素和不准确性,而以数据为中心的人工智能重点关注数据体量或质量。

一位著名的人工智能专家曾开展过一项实验,利用计算机视觉模型来检测钢板缺陷。他将实验团队分为两组,一组仅专注于优化代码,另一组则专注于提升模型训练数据的质量。他发现,优化代码对改善模型性能无任何实质作用,但数据质量提升对改善模型性能有显著作用(从 76% 提升到 93%)。随着数据质量提升,该模型在缺陷检测方面甚至比人类表现更加出色,人类在缺陷检测方面的准确率只有 90%。

4.训练数据管理的新需求

随着人工智能公司越来越认可训练数据对人工智能模型成功应用的作用,市场上对训练数据管理方法的需求日益增加。虽然数据训练有着不可忽视的重要性,但该项工作包含数据收集、数据提取、数据探索、数据标注、数据验证以及数据准备等多个流程。为这些工作流程制定一个管理框架,有利于推动人工智能团队的研究进程。有效的数据管理框架应包含以下关键点:

  • 用于追溯的版本控制
  • 数据安全协议
  • 访问控制
  • 数据传输监控
  • 合作协议

在任何情况下,数据管理框架都能为数据处理的流程奠定基础,从而增强数据的可扩展性。掌握训练数据管理方法将有助于AI公司推广人工智能解决方案。

5.人工智能协助标注增加

为了应对人工智能开发过程中的挑战,自动化机器学习技术的应用日益增加。虽然距离完全自动化仍有很长的一段路程,但目前人工智能公司已开始利用人工智能来协助数据标注,以减少数据标注过程所需的时间。以下是数据标注自动化的三种主要类型:

预标注

先由人工智能模型对标注进行合理猜测,然后再由人工标注员进行检查,如有需要,则更正标注内容。这有利于减少大量的标注时间,以及提高标注质量。

快速标注

利用人工智能来节省标注员的数据标注时间,这与自动完成功能很相似。

智能验证器

人工智能对标注员的数据输出进行验证,如标注不在阈值范围内,则会提醒标注员。这有利于提高标注员的效率及其标注的质量。

人工智能公司可以选择上述任何一种或全部的人工智能协助标注方法。但无论选择何种方法,只要能保证数据标注质量,提高自动化程度就可以节省时间和降低成本。

总结

虽然数据问题仍是人工智能项目落地的一大瓶颈,但越来越多的人工智能团队开始研究数据运用方法:理解以数据为中心的人工智能需求,研究训练数据管理方法,以及借助自动化来减少数据标注时间。用例精准化有利于更好地理解数据需求,并进行相应的数据收集和训练工作。随着时间的推移,这些方法有利于将更多的人工智能项目投入到实践中。当我们在观察人工智能这个朝阳行业时,数据趋势无疑是值得关注的。

澳鹏appen一直专注于为客户提供高质量的训练数据,并且开发了行业领先的数据标注平台,同时可以进行人工智能辅助标注,并配备了完整的数据管理流程联系我们,了解高质量训练数据如何帮助您的人工智能项目落地。

Language