成功的AI模型要从数据获取开始

顾名思义,数据是指收集并用于参考和分析的统计值和事实,但它的意义远不止于此。它是机器学习的基石。它为我们的AI模型提供动力,没有它,便没有今天的技术。这就是数据获取是AI生命周期数据管理工作中关键一步的原因所在,也是我们2022年《人工智能与机器学习全景报告》中的第一个关键要点。

在我们的报告中,42%的技术专家表示,AI项目生命周期的数据获取阶段很有挑战性。不过,认为数据获取很有挑战性的企业领导者并不太多(24%)。这种对获取优质数据所需的适当工作量的认识差距可能会导致AI项目预算和资源配置的错位。

 

数据获取基础

种瓜得瓜,种豆得豆,这句古老的谚语用在数据获取方面恰如其分。为了让AI模型得到正确的训练,数据必须是高质量的、多样化的,其获取必须合乎道德。这意味着不仅要使用没有偏见和个人识别信息(PII)的数据,数据集还要包括支持各种用例的数据。而那些罕见的边缘用例问题可以通过合成数据解决。听起来任务很艰巨,对吧?在澳鹏,我们会利用预标注数据集(PLD)。我们拥有100多万名众包工作者,我们还与Mindtech开展合成数据方面的合作,能够为不同项目提供所需的适当数据。

要获取特定项目的数据,需要关注以下要点:

  • 所需数据点列表
  • 一级数据源和二级数据源识别
  • 所需的数据量
  • 质量期望

要确定所需的确切数据并确保数据来源能够提供必要的信息,这些要点是关键。准确确定您的AI项目需要多少数据也至关重要。如果遇到因数据来源不足导致特定用例缺乏信息等问题,AI和机器学习模型可能就无法得到适当的训练。要确保模型使用足够的优质数据加以训练以正常工作,除了保证所需的数据量,还需要设定适当的数据质量要求。如果一开始无法获得足够的优质数据,可能就需要更多的数据采集工作,从而会导致项目进度拖延,并可能显著增加项目成本。

 

共同挑战

虽然数据采集能力本身似乎相对简单,但事实证明,它是AI应用构建团队一大瓶颈。

造成这些问题的一些因素包括:

  • 特定用例缺乏足够的数据
  • 新的机器学习技术需要更多数据
  • 获取数据的过程不正确

所幸这些问题都很容易解决。  首先,需要确保为数据获取分配足够的预算,以获得正确训练机器学习模型所需的一切。事实上,在我2022年《人工智能与机器学习全景报告》中,我们谈到,在AI生命周期的4个阶段中,数据获取阶段分配的预算最大。通过为这一阶段提供足够的预算,就可以确保获得足够的数据来处理所有必要的用例。如果难以获取针对某一特定用例的数据,还可以使用合成数据为该用例生成数据。关于如何确保使用正确的数据获取过程,至关重要的一点是,要请经验丰富的数据采集公司验证所选方法是否有效。这样,您第一次就能获得所需的正确数据,设定的项目进度也就有了保证。

 

了解更多关于数据获取的信息

数据获取对AI模型的成功至关重要。在我们的第8期年度《人工智能与机器学习全景报告》中,澳鹏行业专家分享了他们对数据获取阶段的见解等信息。立即阅读,以更好地了解当前的行业趋势和挑战。如需更多信息,请报名参加定于9月15日上午10点(美国时间)召开的网络研讨会。届时,我们将深入讨论《人工智能与机器学习全景报告》中涵盖的所有主题。

Language