产品聚焦 | 澳鹏多语种数据库为企业科技出海助力

近年来,在企业出海的浪潮之下,互联网大厂纷纷布局全球。如今,中国企业出海已经走向科技驱动,行业领军者们正带着它们优质的产品和服务“扬帆出海”,在世界范围内引领新一轮的科技革命。

澳鹏Appen多语种数据库产品可快速交付多场景、高质量的人工智能训练数据,助力出海科技企业以低成本、高效益的方式快速进行海外部署。

 

短语流实时数据处理数据库

澳鹏Appen自有成品数据库中包含50+个短音频数据库,涵盖了亚美尼亚语、阿塞拜疆语、孟加拉语、菲律宾语、匈牙利语、印尼语、印地语、哈萨克语、拉脱维亚语、马来语、尼泊尔语、波斯语、泰米尔语、乌尔都语、乌兹别克语等30+个小语种,共计5500+小时数据。

数据库内容录制形式多样,主题涵盖:日常谈话、数字/时间、人名/地点、 社会/经济、教育、医疗、政治、运动、娱乐等各种领域。精标数据达3246.41小时,可直接应用于音频实时处理研发,帮助实现小语种音频在线转化、会议实时转播、翻录、呼叫中心、虚拟助手等功能场景的开发,尤其适用于上线周期紧张时提供支持。

 

长语流智能语音识别数据库

澳鹏Appen长音频数据库包含阿拉伯语、泰语、西班牙语、保加利亚语、克罗地亚语、达里语、波斯语、希伯来语、普什图语等30+种语言及稀少语种,可支持智能语音交互开发、智能翻译设备等相关领域的研究。

例如,精标的一万小时泰语电话信道数据库,由2,174个发音人参与录制,包含学生、工人、老师等职业,男女性别比均衡,可为声纹比对提供多种音色数据。涉及领域丰富实用,包含:日常对话、旅游购物、社会经济、教育学习、医疗、政治、体育娱乐、科技数码、社会热点等领域,适用场景多样。

又如,澳鹏Appen 7大阿拉伯语数据库,覆盖各地区阿语数据:阿拉伯联合酋长国/沙特阿拉伯、阿尔及利亚东部、摩洛哥、埃及口音,涵盖长短语流、多人对话、个人演讲等形式。其中992小时的精标数据、1,500+小时长音频,可以满足阿拉伯语各场景模型训练的需求。

 

多场景OCR数据库

澳鹏Appen小语种OCR数据库可以应用于各种场景下的翻译、语音识别、自然语言处理等领域,用途十分广泛,例如在图书馆、档案馆、博物馆等文化机构中,可以用于数字化文献、文物、图片等资料的整理和管理。

为了更好地协助实施照片识别技术和算法研究,澳鹏自有多场景OCR数据库包含维也纳语、德语、韩语等10余个语种,涵盖图像类别包括:广告、商务备忘录、列表、地图、包装、标语、商店、手写文档等,从丰富数据多样性的角度出发制库以满足AI出海发展需求。

作为澳鹏Appen最具青睐和性价比的产品之一,我们的多语种数据库仍在不断扩充体量和种类,为更多本土企业的高质量出海部署助力。

 

澳鹏数据集产品

澳鹏提供600+个成品数据集,包括27,600+小时音频、490,000+幅图像和超过一亿字/词文本,涵盖80+种语言和方言。我们也在不断构建新的数据集,以满足全球企业用户的部署需求。

▲专家团队,大规模、高质量的数据供给

▲快速部署,低成本高效益

▲支持所有数据类型

点此立即查看:澳鹏最新成品数据集

Language