用跨领域的技术改变人工智能 | 对话澳鹏Appen中国研发总监蒋孟杰

AI未来,唯“技术”不破

10年前,蒋孟杰在eBay与数据和算法结下不解之缘。10年后,他加入Appen担任Appen中国研发总监,研究更高效的数据获取和管理技术,用蒋孟杰自己的话来说,他在做的是“利用跨领域的技能去改变人工智能这个垂直领域”。数据是改变未来世界的关键,他对此坚信不疑。

与数据的初识

罗马非一日筑成,但第一块砖石非常重要。相比许多跻身数据行业一线的同行而言,蒋孟杰很幸运地能在职业生涯之初就和数据打交道。谈到个人的“数据萌芽期”,蒋孟杰回忆起刚毕业那时曾有一个创业的想法:基于SaaS的ERP。 在蒋孟杰的数据观里,只有流动的数据才有价值。“当初觉得企业级市场是正事,所以想到将ERP和SaaS结合起来,这样各个企业供应链上下游的数据就能轻易地流动起来,虽然现在看来这个概念很朴素。”但或许就是如此单纯的念想,不经意地指引蒋孟杰走上一条通往数据科学的道路。 蒋孟杰毕业后的第一份工作,就是进入eBay搜索科学组负责与工程相关的项目,这一干就是10年。但真正吸引到他的不是工程,而是挖掘数据的价值。“之前就听说eBay搜索科学组研究的是如何利用数据做决策,如何通过用户行为数据驱动交易额,很契合当时自己对于数据应用的憧憬,所以非常渴望能加入这个组,学习如何利用数据产生价值。”蒋孟杰说。

小孩在制作机器人

从工程到算法的转型

刚加入eBay搜索科学组的时候,蒋孟杰的主要工作是搭建HumanJudgment平台,而他周边坐着的是一群研究算法的科学家。面对这些“大牛”,用仰慕一词不为过,在耳濡目染之下,蒋孟杰内心对算法领域的好奇心日渐强烈。于是,他在完成日常工作的同时,孜孜不倦地自学数据挖掘和机器学习。 “当我完成了几个平台的工程且一一稳定运行后,很自然地获得了一个转向算法开发的工作机会,和我一直仰视着的算法科学家们共事。”蒋孟杰把这次转变定义为职业生涯中的第一个转折点,进入算法领域对当时的他来说简直“如鱼得水”,因为终于能把自己积累的算法知识付诸实际。 此后,蒋孟杰的工作重心便是帮助eBay建立搜索引擎的自动化数据爬取和机器学习算法评测。搜索引擎是一个复杂的系统, 集成了大数据、分布式系统、算法和人工智能相关的技术。算法评测的其中一个指标是搜索相关性, 要教会机器为用户提供准确率更高的搜索结果,自然要用到大量的数据来训练它。为此,eBay搜索科学组集成了一家叫CrowdFlower的众包标注公司。CrowdFlower是一款众包数据处理工具,有点像亚马逊众包网络集市Mechanical Turk,可以通过提供远程众包式服务帮助企业完成一些普通任务。事实上,这家公司就是Figure Eight的前身,前不久刚被Appen收购。 在此期间,蒋孟杰深入涉及到多个方面,比如自然语言理解、搜索排序、SPAM检测等相关算法, 以及AI on search engine的模型评测和推导平台,还有基于NER识别/知识图谱的对话式搜索。 “但最近几年使用深度学习的时候,深刻感受到手工作坊式的算法研发效率太低。尤其是每次上线的周期比较漫长,因为线上流量非常大,在解决模型效果以后还要花更长的时间去保证算法的性能和稳定性。”蒋孟杰说。 从2018年开始,蒋孟杰转向利用工程研发来实现算法平台,以支持算法的部署、管理和监控。“这是我职业生涯中的第二个转折,之前都是单一地使用工程或者算法,但现在是工程+算法。”复合二者的技术,利用跨领域的技能去改变人工智能这个垂直领域。

未来会更有趣

在工厂用平板电脑监控机器人操作的人 “AI这个领域非常有意思,要想AI落地产生价值,算法和数据缺一不可。当前大部分研究机构和实验室在研究更为先进的算法,但是算法的特点是换一个场景就得用那个场景的数据重新训练。”多年与数据、算法打交道的经历,让蒋孟杰更直观地理解行业的现状和市场的特点。 早在eBay时期,蒋孟杰就深入到与数据密切相关的研发中。2015年时,在一次对数据标注服务商的评估中,他第一次接触到Appen并且留下了非常深刻的印象。 “Appen究竟是家怎样的公司呢?在我看来不同的人会有不同的理解。澳鹏是全球领先的为机器学习/人工智能提供高质量的训练数据的公司。但是对于我们从事研发的人来说,Appen首先是一家AI公司, 利用AI技术来提高交付速度和交付质量,同时降低交付成本。Appen积累了22年的数据服务经验, 为社交媒体平台,搜索引擎,电商平台,语音识别系统等提供数据服务。”蒋孟杰不吝言辞地表达了自己对Appen的理解。 正是基于对彼此的认可和价值的一致性,Appen在2019年邀请蒋孟杰加入共同打造上海研发中心。他需要完成的第一个任务是“新一代的数据获取工具和数据标注平台”,并且与之相关的infrastructure和DevOps,另外也会研究和自动驾驶相关的对图片/激光雷达联合标注和辅助标注模型。正如蒋孟杰所期待的,现在做的事情需要同时利用工程手段和算法手段,更复杂但也更有趣。

技术终将“王者归来”

这两年,AI在中国的发展如火如荼,质疑行业风口将慢慢过去的声音也不绝于耳。蒋孟杰对此给出了非常客观的评价,他认为这正是技术站上主导地位的机遇。质疑并非空虚来风,对行业而言反而是件好事,能让那些炒作AI概念的浮躁行为慢慢平息,留下的是“真正在产生价值的技术”。其实,许多老牌互联网公司早在AI被炒作起来之前,就已经把AI技术应用到业务中去。目前的中国也已经储备了大量优秀的工程师。 聊到这里,坐在办公桌前的蒋孟杰打趣地说,“刚工作那会儿,我们做的事情叫数据挖掘,后来慢慢变成机器学习,再后来开始接触深度学习,这两年突然发现它叫人工智能了。哈哈,开个玩笑。我的意思是无论我们所做的被外界称为什么,其实初衷并没有改变,都是研究如何低成本高质量地获取数据,高效利用数据,给企业创造价值。” 毋庸置疑,人工智能确实在改变我们的生活,它在安防、金融、零售、医疗等众多领域的表现都可圈可点。未来,随着AI技术以及芯片不断升级、成熟,IoT设备将必然深入到生活和工作的每个角落,届时会产生越来越多的数据,人类的生活和工作习惯终将被AI改变。 当然在此之前,需要做的是用技术让AI更美好,蒋孟杰期望那些“想改变行业”的工程师能加入到队伍中来,拥抱DT时代赋予的使命。
Language