数据采集帮助改进领先社交媒体公司平台

我们能够在短时间内为不同用户提供训练数据,同时满足高水平的质量要求,这是该项目成功的关键因素。

公司简介

某社交媒体公司需要大量训练数据来改进其工具,通过识别自然语言中的用户意图、情绪和各种实体(人物、地点、事件),从而更好地理解用户生成的消息。

 

挑战

某领先的社交媒体公司需要大量数据来改进其机器学习模型,从而能利用工具通过识别自然语言中的用户意图、情绪和各种实体(人物、地点、事件),更好地理解用户生成的消息。

训练模型需要规模庞大的数据集,其中包括成千上万的短语表示用户输入请求的不同方式。虽然该公司能够从自己的用户生成内容中提取数据,但每个场景的可用数据量不足以使之以所需要的速度构建产品。他们的模型还需要一些用户请求不明确或不相关情况下的短语实例。用误报和漏报实例训练模型是该项目的一项重要要求。

 

解决方案

该公司用于完成这一项目的时间紧迫,需要与一家能够在短时间内提供大量相关的高质量数据的公司合作。我们通过使用内部工具缩短了周转时间,在短短几天里就招募了数百名人员参与项目,他们采集了数千份数据样本,满足了客户的项目期限要求。在不到两个月的时间里,在交通、活动、电影和体育等不同类别采集到超过一百万份数据样本。这些数据随后被用于改进该公司平台的帮助中心、广告、视频等功能。这些样本涉及各种语言、俚语和习语变体,成为数据科学家在整个端到端过程中可以依赖的一个数据集。

 

成效

项目取得的一项成果是,客户及时发布了其产品所需的数据,满足了用户的需求。通过获得大量高质量数据,该公司快速高效地改进了自己的机器学习模型。事实证明,我们标注人员的地理分布和人口多样性对训练模型非常有价值。与其他数据采集方法相比,众包方法也使该公司能够显著控制项目成本。

我们能够在短时间内为不同用户提供训练数据,同时满足高水平的质量要求,这是该项目成功的关键因素。随着该客户继续开发新的功能,我们响应客户请求的敏捷性将继续为其创造增值。

Language