Infobip使用高质量数据集创建对话式AI聊天机器人

澳鹏的定制数据集帮助Infobip创建对话式AI聊天机器人,从而提高满意度并降低客户服务成本

“在我们以创纪录的速度创建世界级AI聊天机器人的进程中,高质量数据集至关重要。在该过程中,澳鹏是一位非常重要的合作伙伴,因为我们完全可以依赖他们:快速获取高质量的数据集。我们使用这些数据集训练我们的AI引擎,并提供对话体验。他们的全球覆盖范围广,使我们能够以任何语言为世界各地的客户提供优质服务。”

——Infobip产品营销经理Ante Stjepanovic

 

公司简介

Infobip 是一个云通信平台,专门为各种渠道的客户通信创建工具,包括SMS、电子邮件、语音、WhatsApp business、Messenger等。在它们的支持下,企业可以高效便捷地与客户沟通。

Answers是InfoBip最受欢迎的产品之一。Answers是一个全渠道聊天机器人构建平台,企业可以在云中使用该平台创建AI聊天机器人,以便在客户首选的渠道(包括WhatsApp、SMS、Facebook Messenger和Google Business Messages)上会见客户。在客户首选的渠道上创建此类聊天机器人有助于InfoBip的客户降低客户服务成本,全天候提供客户服务,并提高客户满意度。

客户希望能够通过便捷的渠道联系企业,并得到最快的响应。对许多客户来说,这意味着使用WhatsApp、Messenger等聊天应用程序,与企业互动并找到解决问题的方法。对于大多数企业而言,Answers充当解决客户问题的第一道防线。如果AI聊天机器人无法解决客户问题,客户便会连接人工服务,这是Infobip对话产品的一部分。

Infobip对客户的目标是控制聊天机器人,提高客户满意度,同时减少对人工服务的需求,因为人工服务的成本可能很高。

 

挑战

一些Infobip的客户通过Infobip的帮助构建最佳版本的聊天机器人。为了满足客户的需求,Infobip需要大量的数据。这类机器学习模型的最佳训练数据是覆盖全球且意图各异的众包数据。Infobip的Answers产品面临的挑战是,在短时间内收集高质量的数据集。Infobip需要高质量数据集的高效供给,并保证数据集质量得到适当验证。

Infobip希望确保,在建立AI聊天机器人时,用各种不同的客户意图训练机器人,所以无论客户如何措辞,聊天机器人均能理解信息背后的意图。

Infobip估计,他们需要为每种意图提供大量具代表性的短语,以确保聊天机器人在短语差异方面得到适当的训练。每个短语都需要足够独特,以涵盖客户可能使用的每个潜在短语。Infobip需要快速获得高质量数据,同时数据的准确性不受影响。

Infobip的客户遍布全球,涉及各行各业。为了获得所需的各种不同语言和方言的大量数据,Infobip需要一位像他们一样具有全球影响力的数据合作伙伴。

 

解决方案

Infobip接触了几家不同的数据提供商,试图找到合适的合作伙伴来满足其需求。澳鹏所提供的结果更佳且数据集质量更高,因此被选为数据合作伙伴。

为了确保成功,并确保聊天机器人得到适当训练,Infobip和Appen开始仅使用几种不同的语言,比如英语、西班牙语和印地语,包括这些语言的一些区域性变化。对于每种语言,Infobip需要数百种符合特定意图的话语。主要要求是:

–      使用目标语言

–      与所提供的意图相关(95%的阈值)

–      满足特定的唯一性标准,以避免重复

为了确保高质量的数据标注,澳鹏做了以下工作:

–      筛选标注员的语言能力

–      多采集10%的话语,以作备用

–      对随机抽样的标注进行手动、人工QA检查

–      检查话语的字数,确保话语不会太长或太短

–      使用机器学习辅助的智能验证器检查重复的话语和目标语言

如果达到95%的相关性,数据就通过了QA检查,并发送给Infobip,用于训练AI聊天机器人模型。

 

成效

当Infobip想为客户准备聊天机器人时,就明确这需要大量的数据。对于较小的项目,他们曾在内部实施数据采集和标注工作,但由于仅由一个团队成员负责数据工作,项目进度很慢。

通过与澳鹏这样的高质量数据合作伙伴合作,Infobip可以缩短项目部署时间。Infobip可以拥有更多、更高质量的数据集,以训练模型和部署AI聊天机器人。

Infobip表示,与澳鹏合作的另一个好处是澳鹏的管理服务团队。当像Infobip这样的客户与澳鹏合作时,他们有一个单一联络点,可在遇到任何问题或要检查项目进度时联系该联络点。此外,客户期望收到及时的回应,这在工作时间紧迫的情况下必不可少。

Language