自然语言处理的多行业应用

在我们小时候,甚至是我们会走路或说话之前,就已经在察觉周围发出的声音了。我们倾听其他人发出的声响和声音。我们将声音组合成有意义的词语,例如“母亲”和“门”,并学习解读周围人的面部表情,以加深我们对词组的理解。到了上学的时候,我们开始用其他类型的语言表征互动——例如漫画、电视、平板电脑和手机,以及书籍,通过它们我们可以改进自己对语言的理解。 对于大多数人来说这是一个自然的过程,但对计算机来说却非常困难。语言是复杂的数据类型,具有灵活的形式规则和大量特殊情况,当它们缺乏上下文和意图时,会非常难以理解。想象一个孩子走进您的房间,然后说“门!”没有上下文(他为什么这么说?门是开着的吗?)和意图(他们想让我关门吗?),我们不会知道如何以适当的方式做出回应。 难怪人们要花几十年的时间来训练人工智能“理解”语言。随着机器学习能力的提高,我们改进自然语言处理(NLP)的能力也在加强。 随着人工智能和NLP技术的不断进步,它正以不同的应用方式,让世界变得更美好。  

什么是NLP?

自然语言处理(NLP)是指软件对语言的操作。在处理过程中,软件将语言分解成若干部分,以便能够理解和解释。这可以通过语音或文本实现,具体取决于软件。当与人工智能和机器学习结合使用时,NLP数据集呈指数级增长,这使得该技术能够做得更多更好。 NLP的第一次迭代始于50多年前,从语言学领域演变而来。如今,NLP技术最常见的例子就在您的钱包或口袋里。家中或智能手机上的智能助手使用NLP和人工智能为智能搜索提供语音驱动接口。 下一次您呼叫Alexa、Siri、Google、Bixby或任何其他虚拟助手时,请记住,您使用的是历时数十年的技术,如果没有先进的人工智能,根本不可能实现。  

NLP和人工智能项目使世界变得更美好

一开始,NLP和语言学一样,是一种加深对语言理解的方法。随着该领域的发展和人工智能技术的改进,NLP可以扩展,应用在各行各业,使世界变得更美好、更高效。 随着人工智能数据处理能力的提高和大量计算能力的普及,NLP和人工智能将继续扩大其应用范围。如果与了解数据存储、转换和标注的合作伙伴协作,这项技术还将使更多人受益。 以下是一些显而易见的例子,展现了企业如何结合对数据的理解、人工智能和NLP,使世界变得更美好。  

用于医疗保健的人工智能和NLP

由于现存大量未数字化的数据和手写的笔记,NLP用例在医疗保健领域正蓬勃发展。NLP不仅用于改善医疗保健服务,而且还致力于降低成本。使用人工智能和自动化功能,NLP可以将人力从枯燥的重复性工作中解脱出来。 大多数健康数据以文本形式存在于医生的笔记、临床试验报告和患者病历中。NLP目前正用于加快纸质病历的数字化进程,这将使医生与患者和其他同行能更快、更全面地共享这些病历。 一旦病历实现数字化,就可以使用诸如Amazon Comprehend Medical之类的工具来解读这些病历并寻找改进诊断的模式。NLP支持通过数字化的健康档案来识别和预测疾病。这样就能更早和更准确地诊断疾病。 Amazon Comprehend Medical的真正亮点在于其提取和组织数据的能力。自动化的,基于规则的数据组织是不起作用的,因为它不了解上下文,这会导致数据结构不充分且无法使用。使用Amazon Comprehend Medical,可以将提取的数据与医学本体(抽象知识结构)进行比较,以便从提取的医学信息中理解和建立关系,从而为患者提供更好、更快的疾病诊断。 NLP和人工智能用于改善医疗保健服务的另一个例子是Winterlight Labs,它们创建了一种可通过语音监控认知障碍的工具。这种工具被用于快速而客观地分析语言,以检测痴呆和精神疾病。 通过使用由斯坦福大学开发的聊天机器人治疗师Woebot,NLP也可用于治疗焦虑和其他心理健康障碍。Woebot与其他聊天机器人的不同之处在于,它能够与人类形成一种治疗关系,使认知和行为的改变成为可能。 随着医疗保健成本的增加和对精神卫生保健需求的增加,NLP和人工智能工具因其效率、效能和降低成本的能力而需求高涨。  

改进信息共享并减缓虚假新闻的传播

在过去的几年中,特别是在新冠肺炎疫情期间,与虚假和煽动性信息的传播斗争成为一大挑战。对偏见和真相的担忧导致社会产生深刻的分歧。为了帮助识别虚假新闻,麻省理工学院的NLP小组开发了NLP软件,该软件可以检测和辨别新闻来源是否准确、可信,是否存在政治偏见。随着时间的推移,该小组致力于改进软件并消除数据分析程序中的偏见。 虽然减缓虚假新闻的传播旨在提高可用信息的质量,但数据科学家也发现,信息缺乏可能有害。为了改进数据共享,我们与无国界译者、卡内基梅隆大学、约翰斯·霍普金斯大学、若干大型科技公司和语言服务公司合作,作为TICO-19的成员(TICO-19是一家数据共享和翻译组织),致力于解决低资源语言中缺少新冠肺炎疫情信息的问题。该组织已使用NLP和人工智能工具将有关新冠肺炎疫情的信息从高资源语言翻译为低资源语言并共享。  

人工智能支持的移动设备预测文本

在改善人们的日常生活方面,NLP工具已发挥了重大作用。您可以看到NLP和人工智能在智能手机、电子邮件客户端和智能助手中协同工作。 预测文本、自动更正和自动完成功能均使用NLP技术来提高搜索效率并促进书面工作。这些小小的改进可以提高人们的日常工作效率。构建良好的自动完成功能应该从每次交互中学习,因此会随着时间的推移得到改进。 在后端,搜索引擎使用NLP将正确的结果返回给搜索工具。通过对意图的理解和推断,搜索不再是基于文字和规则。例如,您现在键入航班号,不再是简单地获得航班所在航空公司的信息,还将获得航班的当前状态和到达或离开信息。如果您的搜索引擎提供商也是您确认机票信息的电子邮件的服务提供商,您还将看到您即将搭乘的航 班的实际信息。  

通过情绪分析改进客户服务

如果您最近访问了一家大型企业的网站,并受到聊天机器人的问候,您就与NLP和人工智能客户服务技术进行了交互。这些聊天机器人使用NLP和算法来理解客户的问题并做出适当的实时响应。 NLP的最新发展使情绪分析成为可能。NLP技术的早期迭代只能理解话语,而不能理解话语背后的情绪。情绪分析使技术能够理解我们话语背后的情绪。例如,使用情绪分析,企业可以平息客户互动中的不满,防止社交媒体上出现更大的问题。 企业在社交媒体和客户服务电话中使用NLP软件,以更好地了解客户情绪并训练他们的软件执行同样的操作。当您听到“此次通话可能出于训练目的而被录音”时,这可能意味着您的通话正在通过NLP软件进行理解,以改进未来的客户服务。 NLP和情绪分析也被用于新的Google Assistant 技术,可以为用户接听电话和预约。  

人工智能翻译和文本签名

10年前,如果您在做外语作业时需要帮助,您可以求助谷歌翻译,但这存在一定风险。就在几年前,在线翻译还不足以处理俗语或语法问题。相反,它们会提供直译,往往会让句子变得难以理解。 随着NLP技术的进步,在线翻译现在可以更准确地翻译语言,并使用正确的语法。许多在线工具现在也可以识别正在使用的语言,并自动将其翻译出来。如果您通过Google访问另一种语言的网站,您可以获得实时翻译。 其他翻译工具已经使用NLP来推进手语翻译的技术。SignAll帮助失聪或有听力障碍的人与不懂手语的人交流。这项技术使用摄像头来观察和解释手语,并将其翻译成书面文字。这项技术还将用于VR技术,因为理解特定的细微手势是一项重大挑战。 NLP不仅用于使两种不同语言的人之间的翻译更容易,还用于维护和振兴语言。微软最近在微软翻译(Microsoft Translate)项目中增加了加拿大本地语言因纽特语(Inuktitut)的文本翻译功能,澳鹏为该项目提供了训练数据。目前,加拿大约有40,000名因纽特人使用因纽特语。通过使该语言能够在工作和学校的日常计算机环境中得到更广泛地使用,这一发展成果支持了语言的持续生命力。  

NLP与人工智能数据分析

多年来,NLP技术的一个主要限制因素就是语言极其复杂。拼写相同的词具有不同的含义,发音不同的词具有相同的拼写,通过讽刺可以创造性地使用词语来表达多种不同的情感意义。有很多事情需要你理解! 随着与改进的数据分析和机器学习技术的结合,NLP技术在理解正在交流的内容方面变得越来越好。通过数据标注和分析,NLP技术不断改进,使世界变得更美好。 然而,如果没有高质量的标注训练数据,NLP就无法继续改进。在澳鹏,我们推荐使用智能标注工具,例如预标注、快速标注和智能验证器,以使NLP数据更快速、高效。 人工智能企业结合NLP技术,使用高质量的标注数据,通过预测文本和智能助手,让世界变得更高效。NLP技术还通过改进的客户服务、更好的翻译服务和医疗保健服务,让世界变得更宜居和驾驭。  

解决方案和高级研究高级总监Judith Bishop博士的专家见解

为了在商业、金融、医药或任何其他领域取得长期成功,NLP技术必须对每位用户同样有效,而不是忽视歧视模式持续存在。客户总是问我们:“我们如何确保我们的训练数据反映客户互动的多样性?” 在NLP的背景下,多样性体现在我们说话和写作的各种不同方式中。然而,语言多样性与传统的人口统计学不同;您可以在训练数据中涵盖年龄段、地区和性别,但却无法充分考虑人们真正交流的方式。理解现实世界中语言的各种变化方式,可确保我们不会浪费时间和金钱来采集错误的数据,或者更糟糕的是,创建会对某些客户群体产生不良影响的系统。 为了回答客户的问题,我们可以做三件事。
  1. 让语言学家共同设计和指导数据采集和标注工作。 语言学家了解真实的语言变化和语言行为,并能确保NLP训练数据真正符合目的。如果没有专家指导,数据采集指南可能会在不经意间影响数据的变化。例如,在文本数据采集中要求使用标点符号这样简单的操作可能会使采集的数据偏向于更正式的书写,这可能无法代表用户在NLP应用程序中(例如聊天机器人)实际输入的非正式文本。
  2. 由多样性与数据多样性匹配的人员对数据进行标注。
越来越多的证据表明,数据标注(例如图像上的标签,以及语音转录和翻译)与数据本身一样具有偏见。我们都通过我们的经验、态度和认知来理解世界,包括语言。如果我们熟悉一种方言,就更有可能正确地转录、标注或翻译它。
  1. 与多元化的员工合作。
他们对差异的敏感度可以指导我们了解数据偏见是什么以及在采集和标注训练数据时如何避免偏见。近些年来,NLP中的性别偏见受到广泛的关注。研究表明,在训练数据集和由此产生的应用中,对女性性别术语的负面偏见仍然存在。通过与性别拓展的同事合作,我不禁要问:NLP应用程序如何处理性别拓展的身份(包括“他们”的单数代词的使用)。在许多情况下,NLP应用程序使用二进制或最多三进制的性别标签集(男性/女性/其他)进行训练。通过多元化的员工合作,我们可以预测这些问题和顾虑,并积极构建更具包容性的NLP。  

我们能为您做什么

澳鹏的自然语言处理专业技术已经持续发展20余年,在此期间,我们获得了支持NLP项目成功的最佳方案的先进资源和专业知识。得益于我们团队,包括Judith Bishop博士等专家以及澳鹏数据标注平台所提供的支持,再加上我们众包人员的力量,我们将为您提供大规模部署世界一流模型所需的高质量训练数据。无论您有何种NLP需求,我们都将随时准备着为您部署和维护人工智能和ML项目保驾护航。 详细了解我们的专业知识将如何帮助您进行下一个NLP项目,或者马上联系我们,与我们的专家直接交谈。  
Language