数据获取基础
种瓜得瓜,种豆得豆,这句古老的谚语用在数据获取方面恰如其分。为了让AI模型得到正确的训练,数据必须是高质量的、多样化的,其获取必须合乎道德。这意味着不仅要使用没有偏见和个人识别信息(PII)的数据,数据集还要包括支持各种用例的数据。而那些罕见的边缘用例问题可以通过合成数据解决。听起来任务很艰巨,对吧?在澳鹏,我们会利用预标注数据集(PLD)。我们拥有100多万名众包工作者,我们还与Mindtech开展合成数据方面的合作,能够为不同项目提供所需的适当数据。 要获取特定项目的数据,需要关注以下要点:- 所需数据点列表
- 一级数据源和二级数据源识别
- 所需的数据量
- 质量期望
共同挑战
虽然数据采集能力本身似乎相对简单,但事实证明,它是AI应用构建团队一大瓶颈。 造成这些问题的一些因素包括:- 特定用例缺乏足够的数据
- 新的机器学习技术需要更多数据
- 获取数据的过程不正确