NLP自然语言处理和语音技术


通过我们的世界级训练数据强化自然语言处理和机器学习解决方案




随着人机交互的体验日益完善,自然语言处理 (NLP) 技术也在不断进步。NLP 使计算机能够阅读文本,理解语音,对其进行解释和总结,并判定其中的情绪。NLP 是许多 AI 解决方案的推动力,但它需要大量经过灵活处理、标记和清洗后的训练数据加以训练。训练模型的数据越多,模型反馈结果就越准确。

澳鹏数十年来深耕语言学领域,积累了丰富的专业经验。我们的全球众包资源遍布 170 +个国家/地区,支持 235+种语言的专业知识。我们已经助力众多零售/电子商务、金融、保险、医疗、交通等行业的企业成功落地了 NLP 项目。

我们提供训练数据,帮助构建能够理解人类文本和语音并提取其中含义的智能系统,可应用于多种AI场景,例如聊天机器人、语音助手、搜索相关性、情绪分析等。


Image Image Image




Image

端到端数据采集:



Image

文本采集



为了构建基于语言的世界级机器学习应用程序,解释各种来源的文本数据,我们的语音文本数据采集服务涵盖全球各种语言和方言。我们的语音文本采集服务可以帮助收集大量高质量、可定制的文本数据,用于训练聊天机器人和其他对话式 AI 模型。我们的文本生成服务可用于母语者之间基于场景的响应或对话的生成。可选的后续语义标注,则可用于训练聊天机器人或自然语言处理的文本语料库创建。

Image

语音和音频采集



采集大量高质量、可定制的语音和音频数据,以训练带语音提示的虚拟助手、声控搜索功能、转录服务、语音转文本功能等。我们的数据采集可以是独立提供的服务选项,也可按需附赠其他相关产品作为交付成果的一部分(例如 ASR 语音数据库,通常包括音频数据、转录、发音词典和特定语言文档)。






成品数据集


你也可以查看我们的丰富多元的成品数据集。250 多个可授权的数据集中包括 11,000 多个小时音频,25,000 多张图像,以及涵盖 80 种语言和多种方言的超过 870 万个单词,其中包括:

  • 用于广播、呼叫中心、车载和电话应用的完全转录数据集
  • 通用和特定领域的发音词典(如名称、地名、自然数)
  • 带有POS标签的词典和词表
  • 标注了形态信息和命名实体的文本语料库

了解更多




Image

标注能力



拥有为各行各业提供大量数据标注的经验,致力于为客户的各类项目提供高品质的标注服务。

我们的多元标注能力具有智能标注特点,在数据标注过程中内置了机器学习辅助功能,实现自动化并提高数据采集和数据标注项目的生产率、准确性以及交付率。



文本



文本标注 (NER、POS)


通过连接关系中的命名实体或词性来扩展 NLP 标签。


文本分类(情感、意图、内容)


通过了解和分析客户的搜索意图和互动对话内容来增加更有价值的对话机会。


实体提取


突出显示和分类相关实体,并从大量文本中提取关键信息来训练模型,从而提高模型的认知能力。


搜索结果评估


通过使用该数据训练模型并返回与用户查询最相关的搜索结果,可以对搜索结果进行排名并改善用户体验。


文本评估和后期编辑


借助我们的多语言专家来评估 NLP 模型(例如机器翻译模型和其他序列模型)所生成文本的自然性和相关性。



音频



音频标注


将音频切分为层、讲话者和时间戳,以用于音频语音识别和其他音频模型。


音频转录


将语音音频转录为文本,或验证机器生成的转录。利用内置 NLP 模型来提高转录质量和效率。


音频分类


使用声音分类或话语分类,根据语言、方言、语义和其他特性对音频进行分类。






Image

语言学




通过让语言学家参与人机交互 AI 的设计、开发和调整,构建旨在复制和扩展人际交流和推理(并为用户带来幸福指数)的 AI 产品。作为自然语言交流、语言行为和结构方面的专家,语言学家可以帮助客户了解用户行为的因果关系以及相应的解决方案。

在研发的每个阶段,我们的语言学家和语言专家都会与客户合作评估样本输出,并支持有针对性地调整 AI 引擎、训练数据和规范。我们的目标是建立高效的端到端产品研发合作伙伴关系,以快速、低成本地交付客户的理想结果。我们的服务包括:

  • 语言技术 质检(QA) 和可用性测试
  • 词典和文本语料库
  • 本地化咨询
  • 语言学咨询

了解更多
Image Image