ZB 时代的数据趋势

随着现代生活的许多方面日益实现数字化,世界各地每天都会产生海量数据。2012 年,全球的数字数据总量达到了 1 ZB;而 2016 年,全球 IP 流量同样也超过了 1 ZB——这些都是数字化进程中的里程碑事件。而如今,这种趋势正在不断加速。

《世界经济论坛》(World Economic Forum) 发表的一篇文章指出,到 2020 年,整个数字世界的数据总量预计将会达到 44 ZB。从这个角度来看,这一数字比可观测宇宙范围内的星星数量还要多 40 倍。随着对这些惊人数量的数据(来自大量的数据源且格式繁杂多样)进行存储和分析的需求不断增长,某些IT领域毫无疑问将面临严峻的挑战。

数据源自何处?

每年,全球越来越多的人加入数字互联,自 2018 年 1 月以来,每天新上网人数均超过了 100 万。Nextweb 于 2019 年 2 月发布的一篇文章给出了以下统计数据:

  • 全球目前共有 51.1 亿名单独移动用户,相比上一年增长了 1 亿 (2%)。
  • 2019 年的互联网用户数量为 43.9 亿,相比 2018 年 1 月增加了 3.66 亿 (9%)。
  • 2019年的社交媒体用户数量为 34.8 亿,自上一年同期以来,全球总量增长了 2.88 亿 (9%)。
  • 2019 年 1 月,在移动设备上使用社交媒体的用户数量为 260 亿,新增用户 2.97 亿,同比增幅超过 10%。

所有这些互联网用户都在不断生成难以置信的大量数据,包括在线购买交易数据、移动数据、社交媒体数据、搜索引擎数据等等。此外,由物联网设备(如用于制造业及联网汽车中的摄像头和传感器)生成的数据也在不断增加。为了解更多背景信息,让我们来看一看上述《世界经济论坛》文章中有关每日数据生成的统计结果:

  • 每天发送的推文数量多达 5 亿篇
  • 每天发送的电子邮件数量多达 2,940 亿封
  • Facebook 上生成的数据量多达 4 PB
  • 每辆联网汽车生成的数据量多达 4 TB
  • WhatsApp 上发送的消息数量多达 650 亿条
  • 搜索量多达 5 亿次
  • 预计到 2025 年,全球每天将会生成 463 EB 的数据——相当于 212,765,957 张 DVD 存储的数据量

如何参考利用所有这些不同类型的数据?

在讨论了每天和每年生成的海量数据量之后,接下来让我们更深入地探讨一下数据的类型。数据的格式和分类非常繁多,不过我们在此仅介绍一些您应该了解的数据类型。

结构化数据、非结构化数据和半结构化数据

所有数据都可以归入这三种类型中的其中一类。结构化数据和非结构化数据的区别在于数据是否具有预定义的数据模型,以及数据是否通过预定义的方式进行了标记和组织。半结构化数据是指尚纳入数据库等存储库中的数据,不过此类数据都伴随有相关信息(例如元数据),因此比原始的非结构化数据更容易处理。

尽管结构化数据更适用于大数据分析,但据 IDC 预计,到 2025 年,在全球生成的所有数据中有 80% 属于非结构化数据。之所以会出现这种情况,是由于许多此类数据,包括文本、照片、音频和其他文件类型等,都来源于企业机构的外部,如:社交媒体和物联网智能设备等。由于无法轻松、自动地将非结构化数据标记并存储在数据库中,这对于希望在大数据项目中充分利用非结构化数据的组织带来了独特的挑战。简言之,非结构化数据需要情境信息。当您想要利用数据来推进机器学习 (ML) 和人工智能 (AI) 项目时,这一点就变得尤为重要。

数据和人工智能

面对我们之前所讨论的海量数据,各企业必须最大程度地发挥其数据流功能,以此无缝共享无限增长的数据并收集相关信息。这意味着需要在数据收集、安全、存储和分析工具方面明智地进行投资,并采用灵活的数据管理战略,以适应不断变化的格式和运营需求并随之进行扩展。对于想要使用数据来训练 AI 项目机器学习算法的组织,还会面临着另一个挑战,即:如何确保数据的可用性。

《福布斯》(Forbes) 于2018 年 10 月发布的一篇文章声称,使用数据优先的方法对于 AI 项目的成功至关重要,而且“任何 AI 和 ML 应用的质量与所收集数据的质量息息相关”。在此类项目开始之初,大多数组织都很难意识到他们的数据是以不同的格式存储在一系列孤立的系统。在开始针对机器学习算法进行训练之前,需要将数据转换为通用格式并将其导入到通用系统。

采用与您的项目相匹配的训练数据战略

如果在训练、测试和调优 AI 系统所需的数据方面没有一个明确的数据收集和结构化处理战略,您就会面临项目延迟的风险,进而无法适当扩展,最终被竞争对手所超越。既然越精细或细致的训练数据就越有可能获得更好的结果,因此许多机器学习项目都要求快速、大规模地获得大量的优质训练数据。为此,您需要建立一个数据管道,以便为刷新模型快速提供充足的数据。正因如此,选择正确的数据标注技术是训练数据战略的关键。

在《如何制定机器学习的训练数据战略》(How to Develop a Training Data Strategy for Machine Learning) 白皮书中,我们讨论了如何创建可靠的机器学习训练数据战略,包括预算、数据源的选择、如何确保数据质量和安全以及如何通过外包训练数据的收集和标记来扩展 AI 计划。

请点击下载本白皮书,了解如何为您的项目制定正确的数据训练战略。
作为本行业的领导者,澳鹏 (Appen) 具有丰富的专业知识和资源,可助您快速扩展各类数据所需的数据标注,包括以 180 多种语言和方言呈现的文本、音频、语音、图像和视频数据。如需了解更多信息,请联系我们

发表评论

电子邮件地址不会被公开。 必填项已用*标注