Person sitting at computer looking at screen

AI启示录 | 什么样的数据才能让人工智能“不学坏”

在Appen看来,中国的人工智能市场在规模和潜力上都是巨大的,但数据获取和使用的方式还有待完善;加之其特有的市场环境造成目前同质化数据以及存疑数据泛滥,需要提高人工处理的专业度和深度。无论如何,为打造出更健康的人工智能,数据从业者和企业都应该对“数据本身”加以重视和不断改进。

Illustration of Artificial Intelligence
有人说,互联网信息的“代谢”周期只有7天,马蜂窝事件如期没入水下,舆论蜂拥迎接下一个头条,至此一些人和事算是翻篇了。

不过,这件事对于公众而言的积极面是吃瓜之外收获了一堂生动的数据课,“以前靠内部爆料方式,更有捕风捉影的味道,现在通过严谨分析一些公开信息,也可以得出相当多的结论,而且是更中立更可信的”——从事数据服务近10年的Appen中国业务拓展副总裁段杨说道,“电商刚兴起的时候,出现了很多综合比价的网站。现在随着UGC和AI的兴起,不排除两三年之后,有APP集成了人工智能算法,你去网上看产品,跑一下这个APP,就能告诉你所有评论有多大可信度。”

Illustration of Artificial Intelligence Applications
在AI界,数据是被公认的比算法更重要的部分。如果把算法比作AI的骨骼,那么数据就是AI的灵魂,相较于算法的日新月异,从业者对数据的精益求精也越发重视起来。因为,只有数据先做到准确和平衡,AI才不会产生认知偏差,做出人们所期望的中立、客观的决策。

以企业招聘为例,性别歧视在各个行业都存在,这相当不利于社会的和谐发展,人们希望通过AI来识别、学习和防止人为偏见。成立于美国西雅图的Textio已经将此化为现实,通过分析和监控各种招聘广告中对工作的描述,发现其中隐含的性别偏见,并建议企业改用替代性的措辞来吸引更多样化的应聘者,从而实现性别平衡。当然,能够实现这样的AI技术,机器需要不断地通过大量数据训练让思维更加缜密。这就涉及到数据的采集、清洗和分析。

在数据获取上,首先会想到的自然是存在于网络的公开信息,企业往往通过爬虫手段就可以获得低成本、不限量的网络数据。但是,这些爬来的数据样本真的可行吗?就之前的马蜂窝事件折射出两个典型问题:一,公开的网络数据也有法律上的归属权;二,公开的网络数据并不一定有效。第二个问题普遍存在于网络世界,第一个问题则会让企业暴露于法律风险之中。

Security lock on circuit board
另外,互联网上的数据虽多,但不能等同于真实世界,甚至可能歪曲。举个例子,人们使用美颜相机拍照,造成大量脱离现实的人像泛滥网络,AI就会理解为人类的样貌=这些脸。所以,能够适用于AI训练的数据并不能通过互联网随意获取。如果AI要学习金融、医学、法律这些带有极强的专业性的知识,数据来源是否正规就显得尤为重要。此外,中立、客观的决策在不同的场景和文化、语言背景下有所不同,其复杂程度会涉及到语言、人文、心理、行为、甚至法律,非专业人士不能给出公允的建议。

这类特殊性让数据服务行业作为一个特定的领域存在。在段杨从业的10年间,他经历了“从无到有建立起一个在5个国家有运营中心,支持70多种语言的数据服务部门”,对于数据的质量和有效性对AI训练的效果所能造成的影响深有体会。就Appen而言,已在全球拥有超过100万名经过严格筛选的母语人员,覆盖超过180种语言,其中包括大量经验丰富的语言专家、行业专家和工程技术人员,可以不受语言、地区、采集模式和数据量的限制,确保数据具备有效的来源、合法的采集、正确的标注等关键指标。

Illustration of Appen's services in China
如今,像Appen这样的全球数据服务公司,每天都会收到来自各行各业的数据需求。通过在130多个国家的百万名众包资源群体,采集和处理覆盖超过180种语言,包括语音、文本、图像、视频等类型在内的数据,Appen为企业和政府提供高质量的数据服务,助推机器学习和人工智能方案的实施。同时,Appen的高安全级别场地和转写操作已获得ISO9001、ISO 27001认证,保障客户的敏感数据受到严格的保护和质量把关。

在Appen看来,中国的人工智能市场在规模和潜力上都是巨大的,但数据获取和使用的方式还有待完善;加之其特有的市场环境造成目前同质化数据以及存疑数据泛滥,需要提高人工处理的专业度和深度。无论如何,为打造出更健康的人工智能,数据从业者和企业都应该对“数据本身”加以重视和不断改进。

 


联系我们以了解更多信息

发表评论

电子邮件地址不会被公开。 必填项已用*标注