成品数据集


我们的经授权许可的成品数据集将快速启动您的AI项目

查看数据集产品目录
获取数据集报价



Image

澳鹏成品数据集



成品数据集是帮助您构建高质量 AI/ML 模型训练数据的绝佳选择。这种成品训练数据集可为企业提供升级和快速运行模型所需的数据,而成本通常比自定义数据采集工作低得多。成品数据集可以运行许多 AI 试点项目,并用其他数据补充生产模型,从而提高整体性能和成本效益。无论企业规模如何,在时间和预算紧张时,成品数据集都是绝佳的解决方案。

澳鹏提供种类丰富的成品数据库,澳鹏提供600+个成品数据集,其中包括27600多小时的音频、490000多幅图像和超过一亿字/词的文本数据集,涵盖80种语言和多种方言。数据集特色如下:




Image

语音识别数据集


覆盖64种语言,总时长22,000小时

电话信道,手机麦克风,高保真麦克风等多种录音设备

单人朗读,自由说话,双人对话等多种场景

安静环境,办公室/居家环境,车载环境等多种录音环境

全部附带转写文本,部分附带发音词典


获取语音识别数据集目录

Image

文本数据集


发音词典覆盖98种语言,共523万词条

词性词典覆盖22种语言,共326万词条

命名实体库(NER)覆盖8种语言,超100万词条

词形分析器覆盖3种语言

阿拉伯语元音化词典


获取文本数据集目录
Image

图像数据集


黑人面部照片1000人13500张

OCR图片中文、泰语、芬兰语共12,000张

多标签图片数据库,2196张

多姿态多光线人像图片,680张


获取图像数据集目录
Image

视频数据集


手机拍摄中国人动作短视频2000段

中国人面部23种表情自拍视频500段

特种数据库

0-3岁婴幼儿啼哭音频100段,每段1分钟


获取视频数据集目录

Image

自驾数据集


丰富的舱内外视频数据及语音数据


获取自动驾驶数据集目录
Image

语音合成数据集


多种语言,400名声优,覆盖20+国家资深声优资源库


获取语音合成数据集目录




Image

数据集应用场景




Image

安全驾驶/自动驾驶



驾驶人危险行为识别数据库助力驾驶舱内检测驾驶位、驾驶员危险动作以及疲劳识别

乘客安全监测数据库,助力识别被遗留的小孩、宠物、危害物品等

车载语音数据库助力驾驶人实现语音导航、多元化智能驾驶体验

驾驶舱外数据库助力道路车道线、障碍物、停车位识别


了解相关数据集

Image

互联网虚拟人/智能客服



线上NLP多轮对话的数据集助力实现生成类AI聊天程序,实现线上客服智能化

TTS语音数据库对文本文件进行实时转换,把文本智能地转化为自然语音流,文本输出的语音音律流畅,使得听者在听取信息时感觉自然


了解相关数据集
Image

智慧金融



我们的金融 OCR 数据集可针对金融、保险的合同审核自动化,助力实现高效、精准的文本转写识别自动化

了解相关数据集
Image

智能家居



语音识别数据库,助力与家居例如空调等的功能提示、智能交互

障碍物图像数据库助力例如扫地机器人的智能识别和障碍物跨越


了解相关数据集
Image

智能终端



人脸识别,语音识别等数据集可以助您部署智能终端

了解相关数据集
Image

智能安防



人脸识别,危险动作追踪等数据集可助您搭建智能安防人工智能

了解相关数据集



数据集名称 产品类型 常见应用场景 录音设备 单元
数据库名称 产品类型 常见使用案例 录音设备 单元
103
2人-3人商务/日常对话录音
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 JAP_ASR002_CN NA 对话录音 日语 日本 语音分析 8.5小时 手机 低背景噪音(家庭/办公室) NA 16/48 R
528
80首美语歌曲
音频 添加到咨询列表 MYGQ_TTS001_CN N/A TTS 英语 美国 4 80首 专业录影棚 N/A N/A N/A M
504
CHN
文本 添加到咨询列表 GJXW_CN N/A 文本数据 中文 N/A N/A 10000篇+ N/A N/A N/A N/A H
474
DMS视频采集
视频 添加到咨询列表 DMS001_CN NA 人像视频 N/A 中国 NA TBD NA NA NA NA D
1
LLM 双人中文对话语料 (日常/科技/体育/医疗)
文本 MT, 聊天机器人, 对话式AI 聊天机器人 MT 添加到咨询列表 LLM_corpus_CN NA NA 中文 中国 对话式AI LLM NA 200000对 NA NA NA NA L
83
LLM 双人中文对话语料 (日常/科技/体育/医疗)
文本 LLMD大语言模型训练 LLMD大语言模型训练 添加到咨询列表 LLM_corpus_CN N/A 多轮对话 普通话 中国 语言建模 N/A 200000对 N/A N/A N/A N/A L
524
LLM垂类数据集-金融财报
文本 添加到咨询列表 LLMJRCB_CN N/A LLM 中文 中国 N/A 40万篇 N/A N/A N/A N/A L
523
LLM预训练数据集-中文百科
文本 添加到咨询列表 LLMZWBK_CN N/A LLM 中文 中国 N/A 180万词条 5亿字+ N/A N/A N/A N/A L
525
LLM预训练数据集-新闻博客
文本 添加到咨询列表 LLM_XWBK_CN N/A LLM 中文 中国 N/A 47亿Token N/A N/A N/A N/A L
228
Sorani(库尔德语)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 SOR_ASR001 7 924 对话录音 库尔德语 伊朗 语音分析 170 5小时 移动电话和固定电话 低背景噪音 可根据要求提供 8 K
511
上海方言对话
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 SHDH_ADR001_CN N/A ASR 中文 中国 N/A 21.32小时 录音笔/麦克风/移动电话 低背景噪音(家庭/办公室) N/A 16&8 S
399
上海方言(中国)多人对话式录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 SHANGHAI_ASR001_CN NA 对话录音 上海方言 中国 语音分析 51 21小时 录音笔/麦克风 低背景噪音(家庭/办公室) NA 16 Z
400
上海方言(中国)多人对话式录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 SHANGHAI_ASR002_CN NA 对话录音 上海方言 中国 语音分析 14 4.5 小时 移动电话 低背景噪音(家庭/办公室) NA 8 Z
421
上海语音数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 SHANGHAI_ASR003_CN NA 语料朗读 上海 中国 语音分析 8 4.1小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 Z
510
东北方言对话
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 DBDH_ADR001_CN N/A ASR 中文 中国 N/A 130.96小时 录音笔/麦克风/移动电话 低背景噪音(家庭/办公室) N/A 16&8 D
401
东北方言(中国)多人对话式录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 DONGBEI_ASR001_CN NA 对话录音 东北方言 中国 语音分析 268 84.6小时 录音笔/麦克风 低背景噪音(家庭/办公室) NA 16 Z
402
东北方言(中国)多人对话式录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 DONGBEI_ASR002_CN NA 对话录音 东北方言 中国 语音分析 185 75.2小时 移动电话 低背景噪音(家庭/办公室) NA 8 Z
420
东北语音数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 DONGBEI_ASR003_CN NA 语料朗读 东北 中国 语音分析 8 2.72小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 Z
519
中文书籍(可提供书单)
文本 添加到咨询列表 ZWSJ_CN N/A 书籍 中文 中国 N/A 442册 N/A N/A N/A N/A Z
479
中文女声(客服类)
音频 添加到咨询列表 CHN_TTS001_CN NA TTS 中文 中国 1 6.64 小时 专业录音棚 专业录音棚 NA NA Z
57
中文泰语
文本 MT, 聊天机器人, 对话式AI 聊天机器人 MT 添加到咨询列表 Chinese_Thai_corpus_CN NA 平行语料 中文泰语 N/A 对话式AI NA 50000对 NA NA NA NA Z
6
中英平行语料​
文本 MT, 聊天机器人, 对话式AI 聊天机器人 MT 添加到咨询列表 CE_corpus001_CN NA NA 中文 中国 对话式AI LLM NA 200000对 NA NA NA NA Z
9
中韩双语语对
文本 MT, 聊天机器人, 对话式AI 聊天机器人 MT 添加到咨询列表 CHN_KOR_corpus_CN NA NA 印尼语 中国 对话式AI NA TBD NA NA NA NA Z
303
丹麦(丹麦)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 dan_DNK_PHON 107 000 发音词典 丹麦语 丹麦 语言建模 N/A 107,000个单词 N/A N/A N/A N/A D
230
丹麦(丹麦)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 虚拟助手 ASR 添加到咨询列表 Speecon Danish 可根据要求提供 有定稿的录音 丹麦语 丹麦 聊天机器人 600(550个成年语料提供者及50个儿童语料提供者) 53小时 麦克风 混合(办公室/娱乐场所/车内/公共场所) 170 000 16 D
304
丹麦(丹麦)词性词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 dan_DNK_POS 100 000 词性词典 丹麦语 丹麦 语言建模 N/A 100,000个单词 N/A N/A N/A N/A D
391
乌克兰语(乌克兰)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 ukr_UKR_PHON 5 000 发音词典 乌克兰语 乌克兰 语言建模 N/A 5,000个单词 N/A N/A N/A N/A W
464
乌兹别克自由说短语流数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 UZB_AKD_ASR001_CN NA 自由说 乌兹别克 乌兹别克 语音分析 1500+ 182.68小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 W
94
乌尔都语NER新闻文本
文本 MT, 聊天机器人, 对话式AI 聊天机器人 MT 添加到咨询列表 URD_NER001 NA 乌尔都语 巴基斯坦 对话式AI 20,634 句 W
277
乌尔都语NER语料库
文本 NER, 内容分类, 搜索引擎 内容分类 NER 添加到咨询列表 URD_NER001 可根据要求提供 NER 乌尔都语 巴基斯坦 搜索引擎 N/A 20,634个句子 N/A N/A 20 634 N/A W
463
乌尔都语自由说短语流数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 URD_AKD_ASR001_CN NA 自由说 乌尔都语 乌尔都语 语音分析 1500+ 431.04小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 W
245
乌尔都语(印度/巴基斯坦)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 URD_ASR001 10 871 对话录音 乌尔都语 印度-巴基斯坦 语音分析 1 000 47小时 移动电话和固定电话 混合 可根据要求提供 8 W
392
乌尔都语(巴基斯坦)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 urd_PAK_PHON 40 000 发音词典 乌尔都语 巴基斯坦 语言建模 N/A 40,000个单词 N/A N/A N/A N/A W
393
乌尔都语(巴基斯坦)词性词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 urd_PAK_POS 12 000 词性词典 乌尔都语 巴基斯坦 语言建模 N/A 12,000个单词 N/A N/A N/A N/A W
451
亚美尼亚自由说短语流数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 ARM_AKD_ASR001_CN NA 自由说 亚美尼亚 亚美尼亚 语音分析 1500+ 176.74小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 Y
85
人体微小活动能源消耗数据采集
文本 MT, 聊天机器人, 对话式AI 聊天机器人 MT 添加到咨询列表 RTHD_CN N/A 文本数据 普通话 中国 对话式AI 语言建模 N/A 150 ID N/A N/A N/A N/A R
69
人像视频
视频 添加到咨询列表 VED_RX_CN NA 人像视频 N/A 中国 NA 17 H NA NA NA NA R
469
人像采集图片数据库
图像 图片标签识别训练 添加到咨询列表 IMG_SRX_CN NA 人脸 N/A 中国 NA 2538 张 手机/平板 多种光线 NA NA R
512
人物视频拍摄
视频 添加到咨询列表 VED_RWSP_CN N/A 人像视频 N/A 日本 N/A 280 ID N/A N/A N/A N/A R
409
他加禄语语音数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 Tagalo_ASR001_CN NA 语料朗读 他加禄语 菲律宾 语音分析 84 68.25小时 电话录音 低背景噪音(家庭/办公室) NA 16 T
491
代码-指令集
文本 添加到咨询列表 ZLCDM_corpus_CN N/A 指令集 中文 中国 N/A 10000条 N/A N/A N/A N/A D
338
伊博语(尼日利亚)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 ibo_NGA_PHON 30 000 发音词典 伊博语 奈及利亚 语言建模 N/A 30,000个单词 N/A N/A N/A N/A Y
322
伊朗波斯语(伊朗)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 pes_IRN_PHON 80 000 发音词典 波斯语 伊朗 语言建模 N/A 80,000个单词 N/A N/A N/A N/A Y
323
伊朗波斯语(伊朗)词性词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 pes_IRN_POS 1 400 000 词性词典 波斯语 伊朗 语言建模 N/A 1,400,000个单词 N/A N/A N/A N/A Y
368
俄罗斯(Russia)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 rus_RUS_PHON 115 000 发音词典 俄语 俄国 语言建模 N/A 115,000个单词 N/A N/A N/A N/A E
222
俄罗斯(Russia)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 RUS_ASR001 28 284 对话录音 俄语 俄国 语音分析 200 37小时 移动电话和固定电话 低背景噪音 可根据要求提供 8 E
224
俄罗斯(Russia)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 呼叫中心 ASR 添加到咨询列表 Russian SpeechDat(E) Database 可根据要求提供 有定稿的录音 俄语 俄国 虚拟助手 2 500 180小时 仅固定电话 低背景噪音 112 000 8 E
223
俄罗斯(Russia)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 虚拟助手 ASR 添加到咨询列表 RUS_ASR002 可根据要求提供 有定稿的录音 俄语 俄国 聊天机器人 115 31小时 麦克风 低背景噪音(家庭/办公室) 12 205 16 E
236
俄罗斯(Russia)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 虚拟助手 ASR 添加到咨询列表 Speecon Russian Database 可根据要求提供 有定稿的录音 俄语 俄国 聊天机器人 600(550个成年语料提供者及50个儿童语料提供者) 46小时 麦克风 混合(办公室/娱乐场所/车内/公共场所) 170 000 16 E
369
俄罗斯(Russia)词性词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 rus_RUS_POS 100 000 词性词典 俄语 俄国 语言建模 N/A 100,000个单词 N/A N/A N/A N/A E
90
俄语NER新闻文本
文本 MT, 聊天机器人, 对话式AI 聊天机器人 MT 添加到咨询列表 RUS_NER001 NA 俄语 俄国 对话式AI 29,888 句 E
273
俄语NER语料库
文本 NER, 内容分类, 搜索引擎 内容分类 NER 添加到咨询列表 RUS_NER001 可根据要求提供 NER 俄语 俄国 搜索引擎 N/A 29,888个句子 N/A N/A 29 888 N/A E
143
俄语德语女声TTS
音频 添加到咨询列表 ED_TTS001_CN NA TTS 俄语 俄国 NA 2 小时 NA NA NA NA E
413
俄语(俄国)自由说语音数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 RUS_ASR003_CN NA 自由说 俄语(俄国) 俄国 语音分析 32 30.89小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 E
295
保加利亚语(保加利亚)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 bul_BGR_PHON 55 000 发音词典 保加利亚语 保加利亚 语言建模 N/A 55,000个单词 N/A N/A N/A N/A B
150
保加利亚语(保加利亚)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 BUL_ASR001 22 342 对话录音 保加利亚语 保加利亚 语音分析 217 38小时 移动电话和固定电话 低背景噪音(家庭/办公室) 可根据要求提供 8 B
251
保加利亚语(保加利亚)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 虚拟助手 ASR 添加到咨询列表 BUL_ASR002 可根据要求提供 有定稿的录音 保加利亚语 保加利亚 聊天机器人 77 22小时 麦克风 低背景噪音(家庭/办公室) 8 674 16 B
301
克罗地亚语(克罗地亚)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 hrv_HRV_PHON 20 000 发音词典 克罗地亚语 克罗地亚 语言建模 N/A 20,000个单词 N/A N/A N/A N/A K
152
克罗地亚语(克罗地亚)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 CRO_ASR001 23 919 对话录音 克罗地亚语 克罗地亚 语音分析 200 39小时 移动电话和固定电话 低背景噪音(家庭/办公室) 可根据要求提供 8 K
256
克罗地亚语(克罗地亚)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人 虚拟助手 ASR 添加到咨询列表 CRO_ASR003_CN 136 140 有定稿的录音 克罗地亚语 克罗地亚 聊天机器人 243 263小时 移动电话 低背景噪音(家庭/办公室) 73 467 16 K
153
克罗地亚语(克罗地亚)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 虚拟助手 ASR 添加到咨询列表 CRO_ASR002 可根据要求提供 有定稿的录音 克罗地亚语 克罗地亚 聊天机器人 94 11小时 麦克风 低背景噪音(家庭/办公室) 4 499 16 K
48
公开财务报表采集图片数据
图像 图片标签识别训练 教辅&文档 图片标签识别训练 添加到咨询列表 IMG_OCR_Public financial statements_CN NA OCR 中文 中国 NA 985张 手机/照相机 多种光线 NA NA G
107
兰州方言(含标注)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 LZ_ASR002_CN NA 有定稿的录音 方言 中国 语音分析 1小时 手机 低背景噪音(家庭/办公室) NA 8 L
405
内蒙古方言(中国)双人对话式录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 NMG_ASR001_CN NA 对话录音 内蒙古族语 中国 语音分析 200 100小时 移动电话 低背景噪音(家庭/办公室) NA 16 Z
46
初中化学采集图片数据
图像 图片标签识别训练 教辅&文档 图片标签识别训练 添加到咨询列表 IMG_OCR_Junior high school chemistry_CN NA OCR 中文 中国 NA 5200张 手机/照相机 多种光线 NA NA C
36
初中物理采集图片数据
图像 图片标签识别训练 教辅&文档 图片标签识别训练 添加到咨询列表 IMG_OCR_Middle School Physics_CN NA OCR 中文 中国 NA 911张 手机/照相机 多种光线 NA NA C
47
初中生物采集图片数据
图像 图片标签识别训练 教辅&文档 图片标签识别训练 添加到咨询列表 IMG_OCR_junior biology_CN NA OCR 中文 中国 NA 6506张 手机/照相机 多种光线 NA NA C
481
初高中化学题
文本 添加到咨询列表 CZHX001_CN N/A 题库 中文 中国 N/A 163804题 N/A N/A N/A N/A C
482
初高中历史题
文本 添加到咨询列表 CZLS001_CN N/A 题库 中文 中国 N/A 84556题 N/A N/A N/A N/A C
485
初高中地理题
文本 添加到咨询列表 GZDL001_CN N/A 题库 中文 中国 N/A 13491题 N/A N/A N/A N/A C
486
初高中政治题
文本 添加到咨询列表 GZZZ001_CN N/A 题库 中文 中国 N/A 66100题 N/A N/A N/A N/A C
484
初高中物理题
文本 添加到咨询列表 CZWL001_CN N/A 题库 中文 中国 N/A 169914题 N/A N/A N/A N/A C
483
初高中生物题
文本 添加到咨询列表 CZSW001_CN N/A 题库 中文 中国 N/A 86713题 N/A N/A N/A N/A C
527
初高中英语题
文本 添加到咨询列表 YYT_CN N/A LLM 英语 中国 N/A 10000题 N/A N/A N/A N/A C
480
初高中语文题
文本 添加到咨询列表 CZYW001_CN N/A 题库 中文 中国 N/A 172426题 N/A N/A N/A N/A C
299
加泰罗尼亚语(西班牙)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 cat_ESP_PHON 10 000 发音词典 加泰罗尼亚语 西班牙 语言建模 N/A 10,000个单词 N/A N/A N/A N/A J
516
动物动态(特写)
图像 图片标签识别训练 添加到咨询列表 IMG_DWTX_CNRD N/A OCR N/A 中国 N/A 50000张 N/A N/A N/A N/A D
455
匈牙利自由说短语流数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 HUN_AKD_ASR001_CN NA 自由说 匈牙利 匈牙利 语音分析 1500+ 66.49小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 X
337
匈牙利语(匈牙利)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 hun_HUN_PHON 500 发音词典 匈牙利语 匈牙利 语言建模 N/A 500个单词 N/A N/A N/A N/A X
259
匈牙利语(匈牙利)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人 虚拟助手 ASR 添加到咨询列表 HUN_ASR001_CN 201 921 有定稿的录音 匈牙利语 匈牙利 聊天机器人 254 286小时 移动电话 低背景噪音(家庭/办公室) 94 031 16 X
189
匈牙利语(匈牙利)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 呼叫中心 ASR 添加到咨询列表 Hungarian SpeechDat(E) 可根据要求提供 有定稿的录音 匈牙利语 匈牙利 虚拟助手 1 000 65小时 仅固定电话 低背景噪音 48 000 8 X
5
医疗文本数据库
文本 MT, 聊天机器人, 对话式AI 聊天机器人 MT 添加到咨询列表 MED_Corpus002_CN NA NA 中文 中国 对话式AI LLM NA 20000对 NA NA NA NA Y
4
医疗问答
文本 MT, 聊天机器人, 对话式AI 聊天机器人 MT 添加到咨询列表 LLM_YLWD_CN NA NA 中文 中国 对话式AI LLM NA 226000对 NA NA NA NA Y
142
单人录音棚普有定稿的通话
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 LYP_ASR001_CN NA 有定稿的录音 普通话 中国 语音分析 NA 220小时 高保真麦克风 专业录音棚 NA NA D
112
南京方言(含标注)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 NJ_ASR001_CN NA 有定稿的录音 方言 中国 语音分析 1小时 手机 低背景噪音(家庭/办公室) NA 8 N
124
南昌方言(含标注)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 NC_ASR002_CN NA 有定稿的录音 方言 中国 语音分析 1小时 手机 低背景噪音(家庭/办公室) NA 8 N
344
卡纳达语(印度)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 kan_IND_PHON 35 000 发音词典 坎那达语 印度 语言建模 N/A 35,000个单词 N/A N/A N/A N/A K
198
卡纳达语(印度)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 KAN_ASR001 15 660 对话录音 坎那达语 印度 语音分析 178 15小时 移动电话和固定电话 混合 可根据要求提供 8 K
249
卡纳达语(印度)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 KAN_ASR001A 15 660 对话录音 坎那达语 印度 语音分析 1 000 57小时 移动电话和固定电话 混合 可根据要求提供 8 K
306
卢奥语(肯尼亚)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 luo_KEN_PHON 20 000 发音词典 卢奥语 肯尼亚 语言建模 N/A 20,000个单词 N/A N/A N/A N/A L
96
印地语反向文本规范化
文本 MT, 聊天机器人, 对话式AI 聊天机器人 MT 添加到咨询列表 HIN_ITN001 NA 印地语 印度 对话式AI 6924 test cases Y
428
印地语自由说语音数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 HINDI_ASR001_CN NA 自由说 印地语 印度 语音分析 6 2.65小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 Y
447
印地语自由说长语流数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 HIN_AKC_ASR001_CN NA 自由说 印地语 印地语 语音分析 400+ 800小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 Y
31
印地语采集图片数据
图像 图片标签识别训练 图片标签识别训练 添加到咨询列表 IMG_OCR_Hindi_CN NA OCR 印地语 印地 NA 467张 手机/照相机 多种光线 NA NA Y
336
印地语(印度)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 hin_IND_PHON 35 000 发音词典 印地语 印度 语言建模 N/A 35,000个单词 N/A N/A N/A N/A Y
188
印地语(印度)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 HIN_ASR002 12 266 对话录音 印地语 印度 语音分析 996 32小时 移动电话和固定电话 混合 可根据要求提供 8 Y
187
印地语(印度)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 呼叫中心 ASR 添加到咨询列表 HIN_ASR001 9 853 有定稿的录音 印地语 印度 虚拟助手 1 920 224小时 移动电话 低背景噪音 96 000 8 Y
291
印尼文(印度尼西亚)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 ind_IDN_PHON 95 000 发音词典 印度尼西亚语 印度尼西亚 语言建模 N/A 95,000个单词 N/A N/A N/A N/A Y
292
印尼文(印度尼西亚)词性词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 ind_IDN_POS 10 000 词性词典 印度尼西亚语 印度尼西亚 语言建模 N/A 10,000个单词 N/A N/A N/A N/A Y
73
印尼朗读视频
视频 添加到咨询列表 VED_IND_READ_CN NA 人像视频 印尼语 印尼 NA 20分钟/人,15人 NA NA NA NA Y
456
印尼自由说短语流数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 IND_AKD_ASR001_CN NA 自由说 印尼语 印尼 语音分析 1500+ 83.37小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 Y
139
印尼语对话数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 IND_DH_ASR001_CN NA 对话 印尼语 印尼 语音分析 NA 250小时 手机 低背景噪音(家庭/办公室) NA NA Y
138
印尼语朗读数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 IND_LD_ASR001_CN NA 有定稿的录音 印尼语 印尼 语音分析 NA 250小时 手机 低背景噪音(家庭/办公室) NA NA Y
430
印尼语自由说语音数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 IND_ASR001_CN NA 自由说 印尼语 印尼 语音分析 7 3.77小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 Y
146
印尼语(印度尼西亚)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 BAH_ASR001 11 480 对话录音 印度尼西亚语 印度尼西亚 语音分析 1 002 31小时 移动电话和固定电话 低背景噪音 可根据要求提供 8 Y
133
厦门方言(含标注)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 XM_ASR002_CN NA 有定稿的录音 方言 中国 语音分析 10小时 手机 低背景噪音(家庭/办公室) NA 8 X
14
台湾有字幕视频
视频 NA 添加到咨询列表 TAIWAN_AUD001_CN NA 有字幕视频 台湾 台湾语 NA 23838小时 NA NA NA NA T
423
台湾自由说语音数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 TAIWAN_ASR001_CN NA 自由说 台湾 中国 语音分析 10 3.12小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 Z
113
合肥方言(含标注)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 HF_ASR002_CN NA 有定稿的录音 方言 中国 语音分析 1小时 手机 低背景噪音(家庭/办公室) NA 8 H
502
后置人像
图像 图片标签识别训练 添加到咨询列表 HZRX_CN N/A OCR N/A 中国 N/A 40000 张 手机/平板 多种光线 N/A N/A H
531
吴语(对话+朗读)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 WYRD_ASR001_CNRD N/A ASR 中文方言 中国 N/A 500小时 N/A N/A N/A 16 W
395
吴语(中国)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 wuu_CHN_PHON 10 000 发音词典 吴语 中国 语言建模 N/A 10,000个单词 N/A N/A N/A N/A W
457
哈萨克斯坦自由说短语流数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 KAZ_AKD_ASR001_CN NA 自由说 哈萨克斯坦 哈萨克斯坦 语音分析 1500+ 139.46小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 H
345
哈萨克语(哈萨克斯坦)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 kaz_KAZ_PHON 30 000 发音词典 哈萨克语 哈萨克斯坦 语言建模 N/A 30,000个单词 N/A N/A N/A N/A H
17
商务印刷文本OCR
图像 图片标签识别训练 图片标签识别训练 添加到咨询列表 IMG_OCR_B2B NA OCR N/A 多国 NA 5,832 documents 手机/照相机 多种光线 NA NA S
18
商务客户印刷文本OCR
图像 图片标签识别训练 图片标签识别训练 添加到咨询列表 IMG_OCR_B2C_Other NA OCR N/A 多国 NA 22,626 documents 手机/照相机 多种光线 NA NA S
50
商品标签,商品清单采集图片数据
图像 图片标签识别训练 教辅&文档 图片标签识别训练 添加到咨询列表 IMG_OCR_Product label_CN NA OCR 中文 中国 NA 5352张 手机/照相机 多种光线 NA NA S
79
商用版权 艺术照
图像 图片标签识别训练 图片标签识别训练 添加到咨询列表 IMG_YSZ_CN NA NA 中文 中国 NA TBD 照相机 多种光线 NA NA S
75
喉结视频采集
视频 添加到咨询列表 VED_HJ_CN NA 人像视频 NA NA NA 200ID,2500S NA NA NA NA H
125
嘉兴方言(含标注)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 JX_ASR002_CN NA 有定稿的录音 方言 中国 语音分析 1小时 手机 低背景噪音(家庭/办公室) NA 8 J
137
四川方言短语
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 SCYF_ASR001_CN NA 有定稿的录音 方言 中国 语音分析 80000 scripts 手机 低背景噪音(家庭/办公室) 80000 scripts 16 S
427
四川语音数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 SICHUAN_ASR001_CN NA 语料朗读 四川 中国 语音分析 8 3.86小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 Z
494
回复安全性的文本-指令集
文本 添加到咨询列表 ZLCAQ_corpus_CN N/A 指令集 中文 中国 N/A 10000条 N/A N/A N/A N/A H
389
土耳其语(土耳其)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 tur_TUR_PHON 255 000 发音词典 土耳其语 土耳其 语言建模 N/A 255,000个单词 N/A N/A N/A N/A T
242
土耳其语(土耳其)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 TUR_ASR001 32 386 对话录音 土耳其语 土耳其 语音分析 200 41小时 移动电话和固定电话 低背景噪音 可根据要求提供 8 T
261
土耳其语(土耳其)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人 虚拟助手 ASR 添加到咨询列表 TUR_ASR003_CN 215 135 有定稿的录音 土耳其语 土耳其 聊天机器人 664 739小时 移动电话 低背景噪音(家庭/办公室) 185 706 16 T
209
土耳其语(土耳其)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 呼叫中心 ASR 添加到咨询列表 OrienTel Turkish Database 可根据要求提供 有定稿的录音 土耳其语 土耳其 虚拟助手 1 700 118小时 移动电话和固定电话 低背景噪音 76 500 8 T
390
土耳其语(土耳其)词性词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 tur_TUR_POS 257 000 词性词典 土耳其语 土耳其 语言建模 N/A 257,000个单词 N/A N/A N/A N/A T
243
土耳其语(土耳其)麦克风录音数据库
音频 ASR, 虚拟助手, 聊天机器人 虚拟助手 ASR 添加到咨询列表 TUR_ASR002 可根据要求提供 有定稿的录音 土耳其语 土耳其 聊天机器人 100 17小时 麦克风 低背景噪音(家庭/办公室) 6 950 16 T
384
塔加洛语(菲律宾)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 tgl_PHL_PHON 30 000 发音词典 塔加拉族语 菲律宾 语言建模 N/A 30,000个单词 N/A N/A N/A N/A T
370
塞尔维亚语(塞尔维亚)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 srp_SRB_PHON 15 000 发音词典 塞尔维亚语 塞尔维亚 语言建模 N/A 15,000个单词 N/A N/A N/A N/A S
383
塞海蒂语(孟加拉国-印度)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 syl_BGD -IND_PHON 22 000 发音词典 塞海蒂语 孟加拉国-印度 语言建模 N/A 22,000个单词 N/A N/A N/A N/A S
408
外国人说中文语音数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 FOREIGNER_ASR001_CN NA 有定稿的录音 中文(外国人) 多国 语音分析 200 200小时 移动电话 低背景噪音(家庭/办公室) NA 16 Z
410
多姿态多光线人像图片数据库
图像 图片标签识别训练 图片标签识别训练 添加到咨询列表 IMG_BODY_POSE_CN NA 物体图片 N/A 多国 NA 680张 手机/照相机 多种光线 NA NA Z
407
多标签图片数据库
图像 图片标签识别训练 图片标签识别训练 添加到咨询列表 IMG_TAG_CN NA 物体图片 N/A NA 2196 张 手机/照相机 多种光线 NA NA Z
68
多模态(3D 人脸)
视频 添加到咨询列表 VED_3D Face_CN NA 人像视频 N/A 中国 NA 50 ID NA NA NA NA D
28
多种车牌处理
图像 图片标签识别训练 图片标签识别训练 添加到咨询列表 IMG_CAR_License plate processing NA 中文 中国 NA 5754张 手机/照相机 多种光线 NA NA D
489
多轮对话-指令集
文本 添加到咨询列表 ZLCDH_corpus_CN N/A 指令集 中文 中国 N/A 40000条 N/A N/A N/A N/A D
86
多音字数据库​
文本 MT, 聊天机器人, 对话式AI 聊天机器人 MT 添加到咨询列表 DYZ_corpus001_CN NA 中文 中国 对话式AI 2000000 words 59字 D
472
大模型文本成品数据集
文本 ASR, TTS, 语言建模 添加到咨询列表 DMXWB_corpus_CN N/A NA 普通话 中国 N/A 20000条 N/A N/A N/A N/A D
109
天津方言(含标注)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 TJ_ASR002_CN NA 有定稿的录音 方言 中国 语音分析 1小时 手机 低背景噪音(家庭/办公室) NA 8 T
135
太原方言(含标注)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 TY_ASR002_CN NA 有定稿的录音 方言 中国 语音分析 1小时 手机 低背景噪音(家庭/办公室) NA 8 T
492
头脑风暴-指令集
文本 添加到咨询列表 ZLCTN_corpus_CN N/A 指令集 中文 中国 N/A 10000条 N/A N/A N/A N/A T
359
奥里雅语(印度)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 ori_IND_PHON 15 000 发音词典 奥里雅语 印度 语言建模 N/A 15,000个单词 N/A N/A N/A N/A A
11
婴儿哭声数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 BABY_CRYING_ASR001_CN NA 自由说 中国 中国 语音分析 566 70小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 Y
264
婴幼儿啼哭语料库
音频 婴儿监控器, 安全及其他消费者应用程序 安全及其他消费者应用程序 婴儿监控器 添加到咨询列表 CRY_ASR001 NA 人声 N/A 中国 100 3小时 移动电话 低背景噪音(家庭/办公室) NA 16 Z
453
孟加拉自由说短语流数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 BAN_AKD_ASR001_CN NA 自由说 孟加拉 孟加拉 语音分析 1500+ 265.26小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 M
294
孟加拉语(印度)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 ben_IND_PHON 29 000 发音词典 孟加拉语 印度 语言建模 N/A 29,000个单词 N/A N/A N/A N/A M
149
孟加拉语(孟加拉国)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 BEN_ASR001 17 922 对话录音 孟加拉语 孟加拉国 语音分析 1 000 47小时 移动电话和固定电话 混合(车内/路边/家庭/办公室) 可根据要求提供 8 M
44
学术论文采集图片数据
图像 图片标签识别训练 教辅&文档 图片标签识别训练 添加到咨询列表 IMG_OCR_Academic papers_CN NA OCR 中文 中国 NA 434张 手机/照相机 多种光线 NA NA X
126
宁波方言(含标注)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 NB_ASR002_CN NA 有定稿的录音 方言 中国 语音分析 1小时 手机 低背景噪音(家庭/办公室) NA 8 N
21
宠物图片
图像 图片标签识别训练 图片标签识别训练 添加到咨询列表 IMG_OCR_pet_CN NA 中文 中国 NA 42764 张 手机/照相机 多种光线 NA NA C
10
宠物婴儿双模OMS数据库
视频 添加到咨询列表 VED_P&B_CN NA 人像视频 N/A 中国 NA 120 ID NA NA NA NA C
25
宠物婴儿双模图像数据库
图像 图片标签识别训练 图片标签识别训练 添加到咨询列表 IMG_Pets&Babies_CN NA 中文 多国 NA 120ID 手机/照相机 多种光线 NA NA C
114
宿迁方言(含标注)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 SQ_ASR002_CN NA 有定稿的录音 方言 中国 语音分析 1小时 手机 低背景噪音(家庭/办公室) NA 8 S
300
宿雾语(菲律宾)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 ceb_PHL_PHON 20 000 发音词典 宿雾语 菲律宾 语言建模 N/A 20,000个单词 N/A N/A N/A N/A S
42
小学中文作文采集图片数据
图像 图片标签识别训练 教辅&文档 图片标签识别训练 添加到咨询列表 IMG_OCR_Elementary school Chinese composition_CN NA OCR 中文 中国 NA 453张 手机/照相机 多种光线 NA NA X
37
小学数学采集图片数据
图像 图片标签识别训练 教辅&文档 图片标签识别训练 添加到咨询列表 IMG_OCR_Elementary Mathematics_CN NA OCR 中文 中国 NA 2651张 手机/照相机 多种光线 NA NA X
41
小学英语作文采集图片数据
图像 图片标签识别训练 教辅&文档 图片标签识别训练 添加到咨询列表 IMG_OCR_Elementary school English composition_CN NA OCR 中文 中国 NA 717张 手机/照相机 多种光线 NA NA X
52
小学英语辅导采集图片数据
图像 图片标签识别训练 教辅&文档 图片标签识别训练 添加到咨询列表 IMG_OCR_English Tutoring_CN NA OCR 中文 中国 NA 1333张 手机/照相机 多种光线 NA NA X
53
小学语文辅导采集图片数据
图像 图片标签识别训练 教辅&文档 图片标签识别训练 添加到咨询列表 IMG_OCR_Chinese tutoring_CN NA OCR 中文 中国 NA 4082张 手机/照相机 多种光线 NA NA X
51
小学速算采集图片数据
图像 图片标签识别训练 教辅&文档 图片标签识别训练 添加到咨询列表 IMG_OCR_quick calculation_CN NA OCR 中文 中国 NA 16331张 手机/照相机 多种光线 NA NA X
460
尼泊尔自由说短语流数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 NEP_AKD_ASR001_CN NA 自由说 尼泊尔 尼泊尔 语音分析 1500+ 164.28小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 N
500
尼泊尔语(含文稿的对话录音)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 NBE_ASR001_CN N/A ASR 尼泊尔语 尼泊尔 100 20小时 手机麦克风 低背景噪音(家庭/办公室) N/A 16 N
293
巴斯克(西班牙)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 eus_ESP_PHON 10 000 发音词典 巴斯克语 西班牙 语言建模 N/A 10,000个单词 N/A N/A N/A N/A B
335
希伯来语(以色列)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 heb_ISR_PHON 31 000 发音词典 希伯来语 以色列 语言建模 N/A 31,000个单词 N/A N/A N/A N/A X
186
希伯来语(以色列)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 HEB_ASR001 19 250 对话录音 希伯来语 以色列 语音分析 200 34小时 移动电话和固定电话 低背景噪音 可根据要求提供 8 X
331
希腊语(希腊)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 ell_GRC_PHON 5 000 发音词典 希腊语 希腊 语言建模 N/A 5,000个单词 N/A N/A N/A N/A X
258
希腊语(希腊)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人 虚拟助手 ASR 添加到咨询列表 GRE_ASR001_CN 68 271 有定稿的录音 希腊语 希腊 聊天机器人 287 191小时 移动电话 低背景噪音(家庭/办公室) 54 113 16 X
127
常州方言(含标注)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 CHANGZHOU_ASR002_CN NA 有定稿的录音 方言 中国 语音分析 1小时 手机 低背景噪音(家庭/办公室) NA 8 C
296
广东话(中国)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 yue_CHN_PHON 37 000 发音词典 广东话 (粤语) 中国 语言建模 N/A 37,000个单词 N/A N/A N/A N/A G
297
广东话(中国)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 yue_CHN_PHON 40 000 发音词典 广东话 (粤语) 中国 语言建模 N/A 40,000个单词 N/A N/A N/A N/A G
298
广东话(中国)词性词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 yue_HKG_POS 10 000 词性词典 广东话 (粤语) 中国 语言建模 N/A 10,000个单词 N/A N/A N/A N/A G
422
广东语音数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 GUANGDONG_ASR001_CN NA 语料朗读 广东 中国 语音分析 8 4.06小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 Z
123
广州方言(含标注)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 GZ_ASR002_CN NA 有定稿的录音 方言 中国 语音分析 10小时 手机 低背景噪音(家庭/办公室) NA 8 G
515
广式粤语唤醒词
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 YYHXC_ASR001_CN N/A ASR 粤语 中国 1090 7.06小时 移动电话 低背景噪音(家庭/办公室) N/A 16 G
348
库尔曼吉(土耳其)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 kur_TUR_PHON 60 000 发音词典 库尔德语 土耳其 语言建模 N/A 60,000个单词 N/A N/A N/A N/A K
76
开源数据爬取(parquet文件)
图像 图片标签识别训练 图片标签识别训练 添加到咨询列表 IMG_PARQUET_CN NA NA 中文 中国 LLM NA 100000+ NA NA NA NA K
411
德语 (德国)自由说语音数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 DEU_ASR004_CN NA 自由说 德语 (德国) 德国 语音分析 80 20.19小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 D
522
德语书籍(可提供书单)
文本 添加到咨询列表 DYSJ_CN N/A 书籍 德语 德国 N/A 2118册 N/A N/A N/A N/A D
97
德语反向文本规范化
文本 MT, 聊天机器人, 对话式AI 聊天机器人 MT 添加到咨询列表 DEU_ITN001 NA 德语 德国 对话式AI 8001 test cases D
12
德语有字幕视频
视频 NA 添加到咨询列表 ESP_AUD001_CN NA 有字幕视频 西班牙 西班牙 NA 10261 小时 NA NA NA NA D
30
德语语采集图片数据
图像 图片标签识别训练 图片标签识别训练 添加到咨询列表 IMG_OCR_Germany_CN NA OCR 德语 德国 NA 636张 手机/照相机 多种光线 NA NA D
201
德语(卢森堡)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 呼叫中心 ASR 添加到咨询列表 Luxembourgish German SpeechDat(II) FDB-500 (FIXED1LG) 可根据要求提供 有定稿的录音 德语 卢森堡 虚拟助手 500 33小时 仅固定电话 低背景噪音 26 500 8 D
208
德语(土耳其)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 呼叫中心 ASR 添加到咨询列表 OrienTel German Spoken by Turkish 可根据要求提供 有定稿的录音 德语 土耳其 虚拟助手 300 31小时 移动电话和固定电话 低背景噪音 15 600 8 D
329
德语(德国)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 deu_DEU_PHON 146 000 发音词典 德语 德国 语言建模 N/A 146,000个单词 N/A N/A N/A N/A D
438
德语(德国)对话式智能手机
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 DEU_ASR004 NA 对话 德语 德国 语音分析 NA 100 小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 D
158
德语(德国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 虚拟助手 ASR 添加到咨询列表 DEU_ASR001 6 826 有定稿的录音 德语 德国 聊天机器人 127 16小时 麦克风 低背景噪音(录音棚) 12 700 16 D
159
德语(德国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 虚拟助手 ASR 添加到咨询列表 DEU_ASR003 可根据要求提供 有定稿的录音 德语 德国 聊天机器人 77 25小时 麦克风 低背景噪音(家庭/办公室) 10 085 16 D
182
德语(德国)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 呼叫中心 ASR 添加到咨询列表 German SpeechDat (II) FDB-1000 可根据要求提供 有定稿的录音 德语 德国 虚拟助手 988 31小时 仅固定电话 低背景噪音(家庭/办公室) 43 000 8 D
183
德语(德国)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 呼叫中心 ASR 添加到咨询列表 German SpeechDat(II) FDB-4000 可根据要求提供 有定稿的录音 德语 德国 虚拟助手 4 000 268小时 仅固定电话 低背景噪音(家庭/办公室) 160 000 8 D
330
德语(瑞士)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 deu_CHE_PHON 15 000 发音词典 德语 瑞士 语言建模 N/A 15,000个单词 N/A N/A N/A N/A D
234
德语(瑞士)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 虚拟助手 ASR 添加到咨询列表 Speecon German (Switzerland) database 可根据要求提供 有定稿的录音 德语 瑞士 聊天机器人 600(550个成年语料提供者及50个儿童语料提供者) 53小时 麦克风 混合(办公室/娱乐场所/车内/公共场所) 170 000 16 D
440
意大利会话智能手机
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 ITA_ASR005 NA 对话 意大利 意大利 语音分析 NA 250 小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 Y
339
意大利文(意大利)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 ita_ITA_PHON 197 000 发音词典 意大利语 意大利 语言建模 N/A 197,000个单词 N/A N/A N/A N/A Y
192
意大利文(意大利)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 ITA_ASR003 18 974 对话录音 意大利语 意大利 语音分析 200 36小时 移动电话和固定电话 低背景噪音 可根据要求提供 8 Y
190
意大利文(意大利)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 虚拟助手 ASR 添加到咨询列表 ITA_ASR001 7 316 有定稿的录音 意大利语 意大利 聊天机器人 200 44小时 麦克风 混合 40 000 22 Y
191
意大利文(意大利)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 车载HMI及娱乐设备 虚拟助手 ASR 添加到咨询列表 ITA_ASR002 10 366 有定稿的录音 意大利语 意大利 车载HMI及娱乐设备 103 47小时 麦克风 混合(车内) 35 875 48 Y
193
意大利文(意大利)有定稿的麦克风录音语料库
音频 TTS TTS 添加到咨询列表 ITA_TTS001 可根据要求提供 有定稿的录音 意大利语 意大利 1 3小时 麦克风 低背景噪音(录音棚) 3 300 22 Y
194
意大利文(意大利)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 呼叫中心 ASR 添加到咨询列表 Italian Fixed Network Speech SpeechDat(M) Corpus 可根据要求提供 有定稿的录音 意大利语 意大利 虚拟助手 1 000 38小时 仅固定电话 低背景噪音(家庭/办公室) 39 000 8 Y
195
意大利文(意大利)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 呼叫中心 ASR 添加到咨询列表 Italian SpeechDat(II) FDB-3000 可根据要求提供 有定稿的录音 意大利语 意大利 虚拟助手 3 040 228小时 仅固定电话 低背景噪音(家庭/办公室) 134 000 8 Y
196
意大利文(意大利)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 呼叫中心 ASR 添加到咨询列表 Italian SpeechDat(II) MDB-250 可根据要求提供 有定稿的录音 意大利语 意大利 虚拟助手 375 103小时 移动电话 低背景噪音(家庭/办公室) 19 000 8 Y
229
意大利文(意大利)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 呼叫中心 ASR 添加到咨询列表 SpeechDat(M) Italian Mobile Network Speech Database 可根据要求提供 有定稿的录音 意大利语 意大利 虚拟助手 342 13小时 移动电话 低背景噪音(家庭/办公室) 13 500 8 Y
340
意大利文(意大利)词性词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 ita_ITA_POS 147 000 词性词典 意大利语 意大利 语言建模 N/A 147,000个单词 N/A N/A N/A N/A Y
434
意大利自由说语语音数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 ITA_ASR001_CN NA 自由说 意大利语 意大利 语音分析 6 3.8小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 Y
119
成都方言(含标注)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 CD_ASR002_CN NA 有定稿的录音 方言 中国 语音分析 10小时 手机 低背景噪音(家庭/办公室) NA 8 C
81
户型图
图像 图片标签识别训练 图片标签识别训练 添加到咨询列表 IMG_HXT_CN NA NA N/A 中国 NA 10000张 NA NA NA NA H
19
手写体
图像 图片标签识别训练 图片标签识别训练 添加到咨询列表 IMG_OCR_Handwritten NA OCR N/A 多国 NA 964 张 手机/照相机 多种光线 NA NA S
388
托皮辛(巴布亚新几内亚)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 tpi_PNG_PHON 10 000 发音词典 托克皮辛语 巴布亚新几内亚 语言建模 N/A 10,000个单词 N/A N/A N/A N/A T
102
拉丁美洲西班牙语反向文本规范化
文本 MT, 聊天机器人, 对话式AI 聊天机器人 MT 添加到咨询列表 SPA_ITN001 NA 西班牙语 西班牙 对话式AI 3795 test cases L
458
拉脱维亚自由说短语流数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 LAT_AKD_ASR001_CN NA 自由说 拉脱维亚 拉脱维亚 语音分析 1500+ 30.1小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 L
357
挪威语(挪威)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 nor_NOR_PHON 115 000 发音词典 挪威语 挪威 语言建模 N/A 115,000个单词 N/A N/A N/A N/A N
358
挪威语(挪威)词性词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 nor_NOR_POS 3 000 词性词典 挪威语 挪威 语言建模 N/A 3,000个单词 N/A N/A N/A N/A N
302
捷克文(捷克共和国)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 ces_CZE_PHON 50 000 发音词典 捷克语 捷克共和国 语言建模 N/A 50,000个单词 N/A N/A N/A N/A J
155
捷克文(捷克共和国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 呼叫中心 ASR 添加到咨询列表 Czech SpeechDat(E) Dataset 可根据要求提供 有定稿的录音 捷克语 捷克共和国 虚拟助手 1 000 93小时 仅固定电话 低背景噪音 52 000 8 J
154
捷克文(捷克共和国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 虚拟助手 ASR 添加到咨询列表 CZE_ASR001 可根据要求提供 有定稿的录音 捷克语 捷克共和国 聊天机器人 102 31小时 麦克风 低背景噪音(家庭/办公室) 12 425 16 J
54
政法相关采集图片数据
图像 图片标签识别训练 教辅&文档 图片标签识别训练 添加到咨询列表 IMG_OCR_politics and law_CN NA OCR 中文 中国 NA 106张 手机/照相机 多种光线 NA NA Z
45
教育教辅采集图片数据
图像 图片标签识别训练 教辅&文档 图片标签识别训练 添加到咨询列表 IMG_OCR_Educational aids_CN NA OCR 中文 中国 NA 12940张 手机/照相机 多种光线 NA NA J
473
数学题库(小学1484份试卷;初中1082份试卷;高中份338试卷)
文本 ASR, TTS, 语言建模 添加到咨询列表 SXTK_json_CN N/A NA 普通话 中国 N/A 2904份 N/A N/A N/A N/A S
493
文本改写-指令集
文本 添加到咨询列表 ZLCGX_corpus_CN N/A 指令集 中文 中国 N/A 10000条 N/A N/A N/A N/A W
495
文本生成-指令集
文本 添加到咨询列表 ZLCWB_corpus_CN N/A 指令集 中文 中国 N/A 20000条 N/A N/A N/A N/A W
225
斯洛伐克(Slovakia)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 呼叫中心 ASR 添加到咨询列表 Slovak SpeechDat(E) Database 可根据要求提供 有定稿的录音 斯洛伐克语 斯洛伐克 虚拟助手 1 000 65小时 仅固定电话 低背景噪音 48 000 8 S
226
斯洛文尼亚语(Slovenian)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 呼叫中心 ASR 添加到咨询列表 Slovenian SpeechDat(II) FDB-1000 可根据要求提供 有定稿的录音 斯洛维尼亚语 斯洛文尼亚 虚拟助手 1 000 76小时 仅固定电话 低背景噪音(家庭/办公室) 40 000 8 S
380
斯瓦希里语(肯尼亚)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 swa_KEN_PHON 66 000 发音词典 斯瓦西里语 肯尼亚 语言建模 N/A 66,000个单词 N/A N/A N/A N/A S
220
旁遮普语(巴基斯坦)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 PAP_ASR001 7 298 对话录音 旁遮普语 巴基斯坦 语音分析 205 20小时 移动电话和固定电话 低背景噪音 可根据要求提供 8 P
128
无锡方言(含标注)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 WX_ASR002_CN NA 有定稿的录音 方言 中国 语音分析 1小时 手机 低背景噪音(家庭/办公室) NA 8 W
537
日语(对话+朗读)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 RYRD_ASR001_CNRD N/A ASR 日语 日本 N/A 800小时 N/A N/A N/A 16 R
93
日语NER新闻文本
文本 MT, 聊天机器人, 对话式AI 聊天机器人 MT 添加到咨询列表 JPY_NER001 NA 日语 日本 对话式AI 20,629 句 R
276
日语NER语料库
文本 NER, 内容分类, 搜索引擎 内容分类 NER 添加到咨询列表 JPY_NER001 可根据要求提供 NER 日语 日本 搜索引擎 N/A 20,629个句子 N/A N/A 20 629 N/A R
27
日语OCR发票数据库
图像 图片标签识别训练 图片标签识别训练 添加到咨询列表 IMG_JP OCR Invoices_CN NA OCR 日本 日本 NA 1000张 手机/照相机 多种光线 NA NA R
100
日语反向文本规范化
文本 MT, 聊天机器人, 对话式AI 聊天机器人 MT 添加到咨询列表 JPN_ITN001 NA 日语 日本 对话式AI 5363 test cases R
429
日语自由说语音数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 JAP_ASR001_CN NA 自由说 日语 日本 语音分析 6 3.38小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 R
341
日语(日本)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 jpn_JPN_PHON 262 000 发音词典 日语 日本 语言建模 N/A 262,000个单词 N/A N/A N/A N/A R
197
日语(日本)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 虚拟助手 ASR 添加到咨询列表 JPN_ASR001 可根据要求提供 有定稿的录音 日语 日本 聊天机器人 144 33小时 麦克风 低背景噪音(家庭/办公室) 13 067 16 R
235
日语(日本)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 虚拟助手 ASR 添加到咨询列表 Speecon Japanese 可根据要求提供 有定稿的录音 日语 日本 聊天机器人 600(550个成年语料提供者及50个儿童语料提供者) 57小时 麦克风 混合(办公室/娱乐场所/车内/公共场所) 170 000 16 R
342
日语(日本)词性词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 jpn_JPN_POS 265 000 词性词典 日语 日本 语言建模 N/A 265,000个单词 N/A N/A N/A N/A R
120
昆明方言(含标注)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 KM_ASR002_CN NA 有定稿的录音 方言 中国 语音分析 1小时 手机 低背景噪音(家庭/办公室) NA 8 K
425
昆明语音数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 KUNMING_ASR001_CN NA 语料朗读 昆明 中国 语音分析 8 2.53小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 Z
360
普什图(阿富汗)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 pus_AFG_PHON 65 000 发音词典 普什图语 阿富汗 语言建模 N/A 65,000个单词 N/A N/A N/A N/A P
212
普什图(阿富汗)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 PAS_ASR001 13 633 对话录音 普什图语 阿富汗 语音分析 967 55小时 移动电话和固定电话 低背景噪音 可根据要求提供 8 P
213
普什图(阿富汗)对话式麦克风录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 PAS_ASR002 9 480 对话录音 普什图语 阿富汗 语音分析 40 39小时 麦克风 低背景噪音 可根据要求提供 16 P
214
普什图(阿富汗)广播录音数据库
音频 ASR, 自动字幕, 关键字检索 自动字幕 ASR 添加到咨询列表 PAS_BRC001 可根据要求提供 广播录音 普什图语 阿富汗 关键字检索 N/A 51小时 麦克风 低背景噪音(录音棚) 可根据要求提供 N/A P
101
普通话-汉语逆文本规范化
文本 MT, 聊天机器人, 对话式AI 聊天机器人 MT 添加到咨询列表 CMN_ITN001 NA 中文 中国 对话式AI 4230 test cases P
91
普通话NER新闻文本
文本 MT, 聊天机器人, 对话式AI 聊天机器人 MT 添加到咨询列表 MAC_NER001 NA 中文 中国 对话式AI 17,313 句 P
274
普通话NER语料库
文本 NER, 内容分类, 搜索引擎 内容分类 NER 添加到咨询列表 MAC_NER001 可根据要求提供 NER 普通话 中国 搜索引擎 N/A 17,313个句子 N/A N/A 17 313 N/A P
514
普通话唤醒词
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 PTHHXC_ASR001_CN N/A ASR 中文 中国 1133 6.71小时 移动电话 低背景噪音(家庭/办公室) N/A 16 P
202
普通话(中国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 呼叫中心 ASR 添加到咨询列表 MAC_ASR001 7 145 有定稿的录音 普通话 中国 虚拟助手 2 000 323小时 移动电话和固定电话 混合 200 000 8 P
203
普通话(中国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 虚拟助手 ASR 添加到咨询列表 MAC_ASR002 可根据要求提供 有定稿的录音 普通话 中国 聊天机器人 132 26小时 麦克风 低背景噪音(家庭/办公室) 10 225 16 P
108
普通话(含标注)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 PTH_ASR002_CN NA 有定稿的录音 方言 中国 语音分析 10小时 手机 低背景噪音(家庭/办公室) NA 8 P
353
普通话(简体)(中国)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 zho_CHN_PHON 35 000 发音词典 中文(简体) 中国 语言建模 N/A 35,000个单词 N/A N/A N/A N/A P
354
普通话(繁体)(台湾)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 zho_TWN_PHON 50 000 发音词典 中文(繁体) 台湾 语言建模 N/A 50,000个单词 N/A N/A N/A N/A P
417
杭州方言语音数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 HANGZHOU_ASR001_CN NA 语料朗读 杭州方言 中国 语音分析 10 2.49小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 Z
129
杭州方言(含标注)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 HZ_ASRNN2_CN NA 有定稿的录音 方言 中国 语音分析 10小时 手机 低背景噪音(家庭/办公室) NA 8 H
134
梅州方言(含标注)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 MZ_ASR002_CN NA 有定稿的录音 方言 中国 语音分析 1小时 手机 低背景噪音(家庭/办公室) NA 8 M
509
武汉方言对话
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 WHDH_ADR001_CN N/A ASR 中文 中国 N/A 80.96小时 录音笔/麦克风/移动电话 低背景噪音(家庭/办公室) N/A 16&8 W
403
武汉方言(中国)多人对话式录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 WUHAN_ASR001_CN NA 对话录音 武汉方言 中国 语音分析 135 42.7小时 录音笔/麦克风 低背景噪音(家庭/办公室) NA 16 Z
404
武汉方言(中国)多人对话式录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 WUHAN_ASR002_CN NA 对话录音 武汉方言 中国 语音分析 180 58.1小时 移动电话 低背景噪音(家庭/办公室) NA 8 Z
424
武汉语音数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 WUHAN_ASR003_CN NA 语料朗读 武汉 中国 语音分析 8 3.19小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 Z
419
河南语音数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 HENAN_ASR001_CN NA 语料朗读 河南 中国 语音分析 7 2.9小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 Z
3
法律问答
文本 MT, 聊天机器人, 对话式AI 聊天机器人 MT 添加到咨询列表 LLM_FLWD_CN NA NA 中文 中国 对话式AI LLM NA 26000对 NA NA NA NA F
412
法语 (法国)自由说语音数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 FRA_ASR004_CN NA 自由说 法语 (法国) 法国 语音分析 96 16.6小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 F
520
法语书籍(可提供书单)
文本 添加到咨询列表 FYSJ_CN N/A 书籍 法语 法国 N/A 3705册 N/A N/A N/A N/A F
99
法语反向文本规范化
文本 MT, 聊天机器人, 对话式AI 聊天机器人 MT 添加到咨询列表 FRA_ITN001 NA 法语 法国 对话式AI 3274 test cases F
29
法语语采集图片数据
图像 图片标签识别训练 图片标签识别训练 添加到咨询列表 IMG_OCR_French_CN NA OCR 法语 法国 NA 1135张 手机/照相机 多种光线 NA NA F
326
法语(加拿大)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 fra_CAN_PHON 67 000 发音词典 法语 加拿大 语言建模 N/A 67,000个单词 N/A N/A N/A N/A F
176
法语(加拿大)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 FRC_ASR003 6 022 对话录音 法语 加拿大 语音分析 68 9小时 移动电话和固定电话 混合 可根据要求提供 8 F
174
法语(加拿大)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 呼叫中心 ASR 添加到咨询列表 FRC_ASR001 11 697 有定稿的录音 法语 加拿大 虚拟助手 1 000 131小时 移动电话 混合 100 000 8 F
175
法语(加拿大)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 虚拟助手 ASR 添加到咨询列表 FRC_ASR002 10 755 有定稿的录音 法语 加拿大 聊天机器人 150 46小时 麦克风 低背景噪音(家庭/办公室) 22 500 16 F
200
法语(卢森堡)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 呼叫中心 ASR 添加到咨询列表 Luxembourgish French SpeechDat(II) FDB-500 (FIXED1LF) 可根据要求提供 有定稿的录音 法语 卢森堡 虚拟助手 614 45小时 仅固定电话 低背景噪音 32 000 8 F
148
法语(比利时)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 呼叫中心 ASR 添加到咨询列表 Belgian French SpeechDat(II) FDB-1000 (FIXED1BF) 可根据要求提供 有定稿的录音 法语 比利时 虚拟助手 1 000 76小时 仅固定电话 低背景噪音 53 000 8 F
439
法语(法国)会话智能手机
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 FRF_ASR004 NA 对话 法语 法国 语音分析 NA 150 小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 F
327
法语(法国)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 fra_FRA_PHON 112 000 发音词典 法语 法国 语言建模 N/A 112,000个单词 N/A N/A N/A N/A F
180
法语(法国)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 FRF_ASR001 11 922 对话录音 法语 法国 语音分析 563 25小时 移动电话和固定电话 低背景噪音 可根据要求提供 8 F
177
法语(法国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 呼叫中心 ASR 添加到咨询列表 French SpeechDat(II) FDB-1000 可根据要求提供 有定稿的录音 法语 法国 虚拟助手 1 017 41小时 仅固定电话 低背景噪音(家庭/办公室) 48 000 8 F
178
法语(法国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 呼叫中心 ASR 添加到咨询列表 French SpeechDat(II) FDB-5000 可根据要求提供 有定稿的录音 法语 法国 虚拟助手 5 040 305小时 仅固定电话 低背景噪音 237 000 8 F
181
法语(法国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 虚拟助手 ASR 添加到咨询列表 FRF_ASR003 可根据要求提供 有定稿的录音 法语 法国 聊天机器人 98 26小时 麦克风 低背景噪音(家庭/办公室) 10 273 16 F
328
法语(法国)词性词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 fra_FRA_POS 95 000 词性词典 法语 法国 语言建模 N/A 95,000个单词 N/A N/A N/A N/A F
179
法语(法国)车内录音语料库
音频 ASR, 虚拟助手, 车载HMI及娱乐设备 虚拟助手 ASR 添加到咨询列表 French SpeechDat-Car 可根据要求提供 有定稿的录音 法语 法国 车载HMI及娱乐设备 300 麦克风和移动电话 混合(车内) 37 500 16和8 F
285
法语(阿尔及利亚)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 fra_DZA_PHON 4 000 发音词典 法语 阿尔及利亚 语言建模 N/A 4,000个单词 N/A N/A N/A N/A F
361
波兰语(波兰)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 pol_POL_PHON 40 000 发音词典 波兰语 波兰 语言建模 N/A 40,000个单词 N/A N/A N/A N/A B
260
波兰语(波兰)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人 虚拟助手 ASR 添加到咨询列表 POL_ASR002_CN 168 544 有定稿的录音 波兰语 波兰 聊天机器人 353 293小时 移动电话 低背景噪音(家庭/办公室) 106 674 16 B
216
波兰语(波兰)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 呼叫中心 ASR 添加到咨询列表 Polish SpeechDat(E) Database 可根据要求提供 有定稿的录音 波兰语 波兰 虚拟助手 1 000 78小时 仅固定电话 低背景噪音 48 000 8 B
215
波兰语(波兰)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 虚拟助手 ASR 添加到咨询列表 POL_ASR001 可根据要求提供 有定稿的录音 波兰语 波兰 聊天机器人 99 25小时 麦克风 低背景噪音(家庭/办公室) 10 130 16 B
362
波兰语(波兰)词性词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 pol_POL_POS 4 000 词性词典 波兰语 波兰 语言建模 N/A 4,000个单词 N/A N/A N/A N/A B
461
波斯自由说短语流数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 PER_AKD_ASR001_CN NA 自由说 波斯 波斯 语音分析 1500+ 64.32小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 B
92
波斯语/波斯语NER新闻文本
文本 MT, 聊天机器人, 对话式AI 聊天机器人 MT 添加到咨询列表 FAR_NER001 NA 波斯语 伊朗 对话式AI 19,584 句 B
275
波斯语NER语料库
文本 NER, 内容分类, 搜索引擎 内容分类 NER 添加到咨询列表 FAR_NER001 可根据要求提供 NER 波斯语 伊朗 搜索引擎 N/A 19,584个句子 N/A N/A 19 584 N/A B
172
波斯语(伊朗)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 FAR_ASR002 12 358 对话录音 波斯语 伊朗 语音分析 1 000 30小时 移动电话和固定电话 混合 可根据要求提供 8 B
171
波斯语(伊朗)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 呼叫中心 ASR 添加到咨询列表 FAR_ASR001 8 716 有定稿的录音 波斯语 伊朗 虚拟助手 789 85小时 移动电话和固定电话 混合 38 400 8 B
385
泰卢固语(印度)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 tel_IND_PHON 50 000 发音词典 泰卢固语 印度 语言建模 N/A 50,000个单词 N/A N/A N/A N/A T
72
泰国朗读视频
视频 添加到咨询列表 VED_THA_READ_CN NA 人像视频 泰语 泰国 NA 20分钟/人,30人 NA NA NA NA T
115
泰州方言(含标注)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 TZ_ASR002_CN NA 有定稿的录音 方言 中国 语音分析 1小时 手机 低背景噪音(家庭/办公室) NA 8 T
386
泰米尔文(印度)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 tam_IND_PHON 105 000 发音词典 泰米尔语 印度 语言建模 N/A 105,000个单词 N/A N/A N/A N/A T
462
泰米尔自由说短语流数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 TAM_AKD_ASR001_CN NA 自由说 泰米尔 泰米尔 语音分析 1500+ 91.41小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 T
23
泰语
图像 图片标签识别训练 图片标签识别训练 添加到咨询列表 IMG_OCR_THA002_CN NA OCR 泰国 泰国 NA 3250 张 手机/照相机 多种光线 NA NA T
534
泰语(对话+朗读)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 TYRD_ASR001_CNRD N/A ASR 泰语 泰国 N/A 500小时 N/A N/A N/A 16 T
13
泰语有字幕视频
视频 NA 添加到咨询列表 THA_AUD001_CN NA 有字幕视频 泰语 泰国 NA 7713 小时 NA NA NA NA T
415
泰语自由说语音数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 THA_ASR002_CN NA 自由说 泰语(泰国) 泰国 语音分析   2.95小时 手机麦克风 低背景噪音(家庭/办公室) NA 17 T
449
泰语自由说长语流数据库
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 THA_AKC_ASR001_CN NA 自由说 泰语 泰语 语音分析 400+ 350小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 T
445
泰语语音数据库-电话信道
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 TH_ASR001 NA 电话信道 泰语 泰国 语音分析 NA 1000小时 手机麦克风 低背景噪音(家庭/办公室) NA 16 T
267
泰语(泰国)印刷文本OCR
图像 文件处理, 文件搜索 文件搜索 文件处理 添加到咨询列表 IMG_OCR_THA_CN NA OCR 泰语 泰国 10 1219张图片 照相机 不同光线 NA NA T
387
泰语(泰国)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 tha_THA_PHON 30 000 发音词典 泰语 泰国 语言建模 N/A 30,000个单词 N/A N/A N/A N/A T
241
泰语(泰国)麦克风录音数据库
音频 ASR, 虚拟助手, 聊天机器人 虚拟助手 ASR 添加到咨询列表 THA_ASR001 可根据要求提供 有定稿的录音 泰语 泰国 聊天机器人 98 28小时 麦克风 低背景噪音(家庭/办公室) 14 039 16 T
110
济南方言(含标注)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 JN_ASR002_CN NA 有定稿的录音 方言 中国 语音分析 1小时 手机 低背景噪音(家庭/办公室) NA 8 J
333
海地克里奥尔语(海地)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 hat_HTI_PHON 15 000 发音词典 海地克里奥尔语 海地 语言建模 N/A 15,000个单词 N/A N/A N/A N/A H
49
海报,宣传页采集图片数据
图像 图片标签识别训练 教辅&文档 图片标签识别训练 添加到咨询列表 IMG_OCR_leaflets_CN NA OCR 中文 中国 NA 1480张 手机/照相机 多种光线 NA NA H
147
温州方言(含标注)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 WZ_ASR002_CN NA 有定稿的录音 方言 中国 语音分析 1小时 手机 低背景噪音(家庭/办公室) NA 8 W
141
港式粤语唤醒词(170个ID,每个ID 26句)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 GSYY_ASR002_CN NA 有定稿的录音 广东话 (粤语) 中国 语音分析 NA 11小时左右 高保真麦克风 专业录音棚 NA NA G
140
港式粤语唤醒词(170个ID,每个ID 50句)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 GSYY_ASR001_CN NA 有定稿的录音 广东话 (粤语) 中国 语音分析 NA 12小时左右 手机 低背景噪音(家庭/办公室) NA NA G
476
港澳OCR
图像 图片标签识别训练 添加到咨询列表 IMG_GA_OCR_CN NA OCR N/A 中国 NA 11028 张 多种光线 NA NA NA G
396
湘语(中国)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 hsn_CHN_PHON 10 000 发音词典 湘语 中国 语言建模 N/A 10,000个单词 N/A N/A N/A N/A X
116
滁州方言(含标注)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 CZ_ASR002_CN NA 有定稿的录音 方言 中国 语音分析 1小时 手机 低背景噪音(家庭/办公室) NA 8 C
532
潮汕话(对话+朗读)
音频 ASR, 对话式AI, 语音分析 对话式AI ASR 添加到咨询列表 CSRD_ASR001_CNRD N/A ASR 中文方言 中国 N/A 500小时 N/A N/A N/A 16 C
343
爪哇语(印度尼西亚)发音词典
文本 ASR, TTS, 语言建模 TTS ASR 添加到咨询列表 jav_IDN_PHON 20 000 发音词典 爪哇语 印度尼西亚 语言建模 N/A 20,000个单词 N/A N/A N/A N/A G
104