澳鹏最新数据集
澳鹏根据市场需求,定期推出新数据集,为您的AI项目快速启动提供助力。
澳鹏最新数据集
我们的高质量数据集可帮助您快速启动AI项目
澳鹏提供250余个成品数据集,其中包括11,000多小时的音频、25,000多幅图像和超过870万字/词,涵盖80种语言和多种方言。我们成品数据集旨在有效提高准确性和整体性能,并为特定的AI项目需求快速提供大规模的高质量数据集。我们的产品涵盖多种数据类型的数据,包括图像、视频、语音、音频和文本。我们也在不断构建新的数据集,以满足我们全球客户群的需求。
查看澳鹏成品数据集列表

大语言模型数据集
针对大语言模型的基础模型训练、模型微调、以及应用落地需求,澳鹏提供超过290+种语言和方言的相关文本、语音数据库,并创建了一系列LLM专用的数据集。同时,我们也有LLM全链路服务及大模型开发平台,帮助企业轻松拥抱大模型。如有需求,请咨询我们的专家。
学科类数据集
澳鹏提供一系列教育、办公类的多学科、多方面数据集,包括表格类数据、公式类数据、学术论文、专业杂志等文件的照片、扫描件以及手写体的OCR数据。以下是一些案例,如有兴趣请联系我们获取数据集列表及样例。
行业书籍杂志OCR数据集
Learn More
本数据集涵盖超过七千张行业书籍杂志的图像OCR数据,包括多专业、多类别的话题,以及表格数据。数据场景包括文档拍照(纸质文档、电子文档)、文档扫描件、电子文档原件图像或截图。
教育教辅综合OCR数据集
Learn More
本数据集涵盖超过一万张教育教辅材料的图像OCR数据,包括多专业、多类别的话题,以及表格数据。数据场景包括文档拍照(纸质文档、电子文档)、文档扫描件、电子文档原件图像或截图。
公开财务报表OCR数据集
Learn More
本数据集涵盖近千份公开财务报表数据,以常规表格数据为主,具体分为有线表、少线表和无线表。通用表格场景为文档拍照(纸质文档、电子文档)、文档扫描件、电子文档原件图像或截图。

澳鹏的西班牙语资源涵盖西班牙以及美洲的七个国家(阿根廷、哥伦比亚、美国、秘鲁、委内瑞拉和智利)的不同口音资源,包括发音词典、麦克风/电话录音数据、自由说长语音、以及OCR图片数据。
Learn More

数据采集服务
如果您的特定用例需要更为定制化的数据集,我们的数据采集服务可单独提供,也可作为多个交付成果的一部分提供,例如ASR语音数据库,该数据库通常包括音频数据、转录、发音词典和特定语言的文档或带标注的图像数据集。我们的数据采集服务涵盖各种环境的各种数据类型和采集方法,满足您针对特定场景的数据需求。
了解澳鹏数据采集服务
