随着人机交互的体验日益完善,自然语言处理 (Natural Language Processing, NLP) 技术也在不断进步。NLP 使计算机能够阅读文本,理解语音,对其进行解释和总结,并判定其中的情绪。NLP 是许多 AI 解决方案的推动力,但它需要大量经过灵活处理、标记和清洗后的训练数据加以训练。训练模型的数据越多,模型反馈结果就越准确。
澳鹏数十年来深耕语言学领域,积累了丰富的专业经验。我们的全球众包资源遍布 170 +个国家/地区,支持 235+种语言的专业知识。我们已经助力众多零售/电子商务、金融、保险、医疗、交通等行业的企业成功落地了自然语言处理项目。
我们提供训练数据,帮助构建能够理解人类文本和语音并提取其中含义的智能系统,可应用于多种AI场景,例如聊天机器人、语音助手、搜索相关性、情绪分析等。


端到端数据采集:
成品数据集
你也可以查看我们的丰富多元的成品数据集。250 多个可授权的数据集中包括 11,000 多个小时音频,25,000 多张图像,以及涵盖 80 种语言和多种方言的超过 870 万个单词,其中包括:
- 用于广播、呼叫中心、车载和电话应用的完全转录数据集
- 通用和特定领域的发音词典(如名称、地名、自然数)
- 带有POS标签的词典和词表
- 标注了形态信息和命名实体的文本语料库

全面高质量的NLP标注能力
我们的多元标注能力具有智能标注特点,在数据标注过程中内置了机器学习辅助功能,实现自动化并提高数据采集和数据标注项目的生产率、准确性以及交付率。我们的自然语言处理和语音标注能力如下:

情感分析
- 情绪判断
- 角色分析
- 音乐情绪种类

语义分析
- 语义标注
- 同义表达
- 意图判断

命名实体识别NER
- 实体提取
- 语义召回实体
- 领域相关性query QU
- 小程序槽位
- NER嵌套实体

词性标注
- 词义消歧
- 分词标注
- 文本富集
- 分词粒度

语音识别ASR
-
时间轴标注
-
语音转写&切分
-
语音识别&审核

语音合成TTS
-
语音合成
- 面向对话代理的语音收集

文本纠错
-
错别字识别与纠正
-
短文本、长文本、语音识别结果等多种文本场景内容

聚类标注
- 文本聚类
-
图像视频聚类
-
新人物聚类

视频NLP标注
-
网服创意视频行业

语言学
通过让语言学家参与人机交互 AI 的设计、开发和调整,构建旨在复制和扩展人际交流和推理(并为用户带来幸福指数)的 AI 产品。作为自然语言交流、语言行为和结构方面的专家,语言学家可以帮助客户了解用户行为的因果关系以及相应的解决方案。
在研发的每个阶段,我们的语言学家和语言专家都会与客户合作评估样本输出,并支持有针对性地调整 AI 引擎、训练数据和规范。我们的目标是建立高效的端到端产品研发合作伙伴关系,以快速、低成本地交付客户的理想结果。我们的服务包括:
- 语言技术 质检(QA) 和可用性测试
- 词典和文本语料库
- 本地化咨询
- 语言学咨询
