NLP自然语言处理和语音


澳鹏的全面采集标注能力,丰富的语言经验和数据集,以及自主研发的标注平台,可以高效、高质量地支持您的自然语言和语音项目。


获取方案




随着人机交互的体验日益完善,自然语言处理 (Natural Language Processing, NLP) 技术也在不断进步。NLP 使计算机能够阅读文本,理解语音,对其进行解释和总结,并判定其中的情绪。NLP 是许多 AI 解决方案的推动力,但它需要大量经过灵活处理、标记和清洗后的训练数据加以训练。训练模型的数据越多,模型反馈结果就越准确。

澳鹏数十年来深耕语言学领域,积累了丰富的专业经验。我们的全球众包资源遍布 170 +个国家/地区,支持 235+种语言的专业知识。我们已经助力众多零售/电子商务、金融、保险、医疗、交通等行业的企业成功落地了自然语言处理项目。

我们提供训练数据,帮助构建能够理解人类文本和语音并提取其中含义的智能系统,可应用于多种AI场景,例如聊天机器人、语音助手、搜索相关性、情绪分析等。


Image Image Image




Image

端到端数据采集:



Image

文本采集



为了构建基于语言的世界级机器学习应用程序,解释各种来源的文本数据,我们的语音文本数据采集服务涵盖全球各种语言和方言。我们的语音文本采集服务可以帮助收集大量高质量、可定制的文本数据,用于训练聊天机器人和其他对话式 AI 模型。我们的文本生成服务可用于母语者之间基于场景的响应或对话的生成。可选的后续语义标注,则可用于训练聊天机器人或自然语言处理的文本语料库创建。


Image

语音和音频采集



采集大量高质量、可定制的语音和音频数据,以训练带语音提示的虚拟助手、声控搜索功能、转录服务、语音转文本功能等。我们的数据采集可以是独立提供的服务选项,也可按需附赠其他相关产品作为交付成果的一部分(例如 ASR 语音数据库,通常包括音频数据、转录、发音词典和特定语言文档)。






成品数据集


你也可以查看我们的丰富多元的成品数据集。250 多个可授权的数据集中包括 11,000 多个小时音频,25,000 多张图像,以及涵盖 80 种语言和多种方言的超过 870 万个单词,其中包括:

  • 用于广播、呼叫中心、车载和电话应用的完全转录数据集
  • 通用和特定领域的发音词典(如名称、地名、自然数)
  • 带有POS标签的词典和词表
  • 标注了形态信息和命名实体的文本语料库

了解更多




Image

全面高质量的NLP标注能力



我们的多元标注能力具有智能标注特点,在数据标注过程中内置了机器学习辅助功能,实现自动化并提高数据采集和数据标注项目的生产率、准确性以及交付率。我们的自然语言处理和语音标注能力如下:





Image

情感分析


  • 情绪判断
  • 角色分析
  • 音乐情绪种类
Image

语义分析


  • 语义标注
  • 同义表达
  • 意图判断
Image

命名实体识别NER


  • 实体提取
  • 语义召回实体
  • 领域相关性query QU
  • 小程序槽位
  • NER嵌套实体
Image

词性标注


  • 词义消歧
  • 分词标注
  • 文本富集
  • 分词粒度
Image

语音识别ASR


  • 时间轴标注

  • 语音转写&切分

  • 语音识别&审核

Image

语音合成TTS


  • 语音合成

  • 面向对话代理的语音收集
Image

文本纠错


  • 错别字识别与纠正

  • 短文本、长文本、语音识别结果等多种文本场景内容

Image

聚类标注


  • 文本聚类
  • 图像视频聚类

  • 新人物聚类

Image

视频NLP标注


  • 网服创意视频行业





Image

语言学




通过让语言学家参与人机交互 AI 的设计、开发和调整,构建旨在复制和扩展人际交流和推理(并为用户带来幸福指数)的 AI 产品。作为自然语言交流、语言行为和结构方面的专家,语言学家可以帮助客户了解用户行为的因果关系以及相应的解决方案。

在研发的每个阶段,我们的语言学家和语言专家都会与客户合作评估样本输出,并支持有针对性地调整 AI 引擎、训练数据和规范。我们的目标是建立高效的端到端产品研发合作伙伴关系,以快速、低成本地交付客户的理想结果。我们的服务包括:

  • 语言技术 质检(QA) 和可用性测试
  • 词典和文本语料库
  • 本地化咨询
  • 语言学咨询

了解更多
Image Image