澳鹏最新数据集


澳鹏根据市场需求,定期推出新数据集,为您的AI项目快速启动提供助力。



澳鹏最新数据集



我们的高质量数据集可帮助您快速启动AI项目


澳鹏提供600+个成品数据集,其中包括27600多小时的音频、490000多幅图像和超过一亿字/词的文本数据集,涵盖80种语言和多种方言。我们成品数据集旨在有效提高准确性和整体性能,并为特定的AI项目需求快速提供大规模的高质量数据集。我们的产品涵盖多种数据类型的数据,包括图像、视频、语音、音频和文本。我们也在不断构建新的数据集,以满足我们全球客户群的需求。

查看澳鹏成品数据集列表


Image



大语言模型数据集


针对大语言模型的基础模型训练、模型微调、以及应用落地需求,澳鹏提供超过290+种语言和方言的相关文本、语音数据库,并创建了一系列LLM专用的数据集。同时,我们也有LLM全链路服务及大模型开发平台,帮助企业轻松拥抱大模型。如有需求,请咨询我们的专家


LLM双人中文对话语料


Learn More
LLM中文对话语料数据集,话题包括日常对话、科技、体育、以及医疗等,支持您的中文大语言模型微调需求。

知识类百科文本语料对


中文知识类百科文本预料对涵盖了多方面的中文环境的知识、常识、以及事实说明,支持多种基础模型的中文微调。
Learn More

法律问答数据集


中文法律问答数据集汇合了26000对法律类的问答数据,内容全面、涵盖法学的主要话题,支持法律方面微调需求。
Learn More

医疗问答数据集


中文医疗问答数据集包括226000对医疗相关知识语料对,涵盖常见的医疗常识、中文医疗用语等,支持大语言模型的医疗问答微调。
Learn More


学科类数据集



澳鹏提供一系列教育、办公类的多学科、多方面数据集,包括表格类数据、公式类数据、学术论文、专业杂志等文件的照片、扫描件以及手写体的OCR数据。以下是一些案例,如有兴趣请联系我们获取数据集列表及样例


小学英语作文OCR学科数据集


Learn More
本数据集涵盖超过700份小学生英语作文手写资料,充分考虑到照片光线、不同字体、书写习惯等多方面因素。

初中生物OCR学科数据集


Learn More
本数据集涵盖超过6000份初中生物教辅材料题目,并包括不同拍摄光线、摆放角度、单双页等数据。

高中化学OCR学科数据集


Learn More
本数据集涵盖高中化学教辅资料,覆盖十多份不同教辅资料,且均为高中化学解答题的手写资料,充分保证了数据的多样性。

行业书籍杂志OCR数据集


Learn More
本数据集涵盖超过七千张行业书籍杂志的图像OCR数据,包括多专业、多类别的话题,以及表格数据。数据场景包括文档拍照(纸质文档、电子文档)、文档扫描件、电子文档原件图像或截图。

教育教辅综合OCR数据集


Learn More
本数据集涵盖超过一万张教育教辅材料的图像OCR数据,包括多专业、多类别的话题,以及表格数据。数据场景包括文档拍照(纸质文档、电子文档)、文档扫描件、电子文档原件图像或截图。

公开财务报表OCR数据集


Learn More
本数据集涵盖近千份公开财务报表数据,以常规表格数据为主,具体分为有线表、少线表和无线表。通用表格场景为文档拍照(纸质文档、电子文档)、文档扫描件、电子文档原件图像或截图。


小语种数据集



澳鹏提供全球59个国家的62种语言的249个成品数据集,包括文本、音频、OCR图像以及视频数据。以下列出一些较为经典的语言类别。关于我们能力涵盖的语言,请查看澳鹏语言能力列表联系我们获得小语种数据集列表以及样例。


Image
澳鹏的阿拉伯语资源丰富,包括阿拉伯语在阿尔及利亚、阿拉伯联合酋长国、埃及、沙特阿拉伯、摩洛哥和突尼斯的发音词典,对话语料库,可以针对相关国家口音进行全面训练。
Learn More
Image
澳鹏的德语资源包括发音词典、麦克风录音、电话录音语料库、自由说语音库、以及OCR图片数据库,涵盖德国、卢森堡、瑞士以及土耳其四个国家的德语数据,支持针对地区口音进行训练。
Learn More
Image
澳鹏的法语资源包括法国、加拿大、卢森堡、比利时和阿尔及利亚五个国家的不同口音的数据集,包括发音词典、词性词典、电话录音、反向文本规范化、自由说语音数据库以及OCR图片数据。
Learn More
Image
澳鹏的俄语数据集包含发音词典、词性词典、自由说语音数据集、NER语料库、麦克风和电话录音、新闻文本NER、以及女声TTS数据集,支持AI对俄语的本地化。
Learn More
Image
澳鹏的西班牙语资源涵盖西班牙以及美洲的七个国家(阿根廷、哥伦比亚、美国、秘鲁、委内瑞拉和智利)的不同口音资源,包括发音词典、麦克风/电话录音数据、自由说长语音、以及OCR图片数据。
Learn More
Image
澳鹏的葡萄牙语资源包括葡萄牙、欧洲以及巴西的多种口音的发音词典、词性词典、电话和麦克风录音、以及图片OCR数据集,支持对葡萄牙和巴西的单独训练和优化。
Learn More
Image
澳鹏的荷兰语资源包括荷兰和比利时两个国家的不同口音数据集、发音词典、电话录音、麦克风录音数据集,支持对荷兰和比利时的口音进行训练。
Learn More
Image
澳鹏的日语资源全面,包括词性词典、发音词典、麦克风录音、多人商务/日常对话录音、NER语料库、OCR发票数据集等,支持AI对日本的本地化。
Learn More


Image

数据采集服务



如果您的特定用例需要更为定制化的数据集,我们的数据采集服务可单独提供,也可作为多个交付成果的一部分提供,例如ASR语音数据库,该数据库通常包括音频数据、转录、发音词典和特定语言的文档或带标注的图像数据集。我们的数据采集服务涵盖各种环境的各种数据类型和采集方法,满足您针对特定场景的数据需求。

了解澳鹏数据采集服务


Image