成品数据集


我们的经授权许可的成品数据集将快速启动您的AI项目

查看数据集产品目录
观看数据集视频介绍


Image

数据产品目录



澳鹏提供种类丰富的成品数据库,我们的数据产品目录包括250多个可授权的数据集,涵盖80多种语言及方言,适用于各种常见的AI应用场景,例如:TTS、ASR等(参考下面目录表的筛选功能查看更多应用场景)。我们也在不断更新数据库中,2020年将推出30多个全新数据集,联系我们为您一同构建适用于您的项目的数据产品。



Image

快速部署



直接获取数据库产品快速为您部署AI与机器学习项目


Image

低成本高效益



直接获取经授权的成品数据库比您定制数据采集服务更具成本效益。


Image

专家团队



您将拥有一支在数据采集领域耕耘20多年的专家团队支持


Image

支持所有数据类型



图像,视频,语音,音频,文本

Image

大规模



提供大量、高品质的数据高效地训练您的机器模型

Image

高质量



提高您的机器模型质量并减少数据偏见






数据集名称 产品类型 常见应用场景 录音设备 单元
数据库名称 产品类型 常见使用案例 录音设备 单元
88
Sorani(库尔德语)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 5小时 添加到咨询列表 SOR_ASR001 Appen Global 对话录音 库尔德语 伊朗 低背景噪音 170 2 可根据要求提供 7,924 8 alaw或wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
对于很大比例的电话录音,只有一半的对话被收集和转录
K
163
丹麦(丹麦)发音词典
文本 ASR, TTS, 语言建模 N/A 107,000个单词 添加到咨询列表 dan_DNK_PHON Appen Global 发音词典 丹麦语 丹麦 N/A N/A N/A N/A 1,07,000 N/A text D
90
丹麦(丹麦)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 53小时 添加到咨询列表 Speecon Danish Nuance 有定稿的录音 丹麦语 丹麦 混合(办公室/娱乐场所/车内/公共场所) 600(550个成年语料提供者及50个儿童语料提供者) 4 1,70,000 可根据要求提供 16 alaw 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年语料提供者录制290个语料,每个儿童语料提供者录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童语料提供者还需要提供关于玩具,手机的指令以及通用指令,成年语料提供者还需要提供应用词汇,以及自由发挥的语料
D
164
丹麦(丹麦)词性词典
文本 ASR, TTS, 语言建模 N/A 100,000个单词 添加到咨询列表 dan_DNK_POS Appen Global 词性词典 丹麦语 丹麦 N/A N/A N/A N/A 1,00,000 N/A text D
252
乌克兰语(乌克兰)发音词典
文本 ASR, TTS, 语言建模 N/A 5,000个单词 添加到咨询列表 ukr_UKR_PHON Appen Global 发音词典 乌克兰语 乌克兰 N/A N/A N/A N/A 5,000 N/A text W
137
乌尔都语NER语料库
文本 NER, 内容分类, 搜索引擎 N/A 20,634个句子 添加到咨询列表 URD_NER001 Appen Global NER 乌尔都语 巴基斯坦 N/A N/A N/A 20,634 可根据要求提供 N/A text W
105
乌尔都语(印度/巴基斯坦)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 47小时 添加到咨询列表 URD_ASR001 Appen Global 对话录音 乌尔都语 印度-巴基斯坦 混合 1,000 2 可根据要求提供 10,871 8 wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
W
253
乌尔都语(巴基斯坦)发音词典
文本 ASR, TTS, 语言建模 N/A 40,000个单词 添加到咨询列表 urd_PAK_PHON Appen Global 发音词典 乌尔都语 巴基斯坦 N/A N/A N/A N/A 40,000 N/A text W
254
乌尔都语(巴基斯坦)词性词典
文本 ASR, TTS, 语言建模 N/A 12,000个单词 添加到咨询列表 urd_PAK_POS Appen Global 词性词典 乌尔都语 巴基斯坦 N/A N/A N/A N/A 12,000 N/A text W
199
伊博语(尼日利亚)发音词典
文本 ASR, TTS, 语言建模 N/A 30,000个单词 添加到咨询列表 ibo_NGA_PHON Appen Global 发音词典 伊博语 奈及利亚 N/A N/A N/A N/A 30,000 N/A text Y
182
伊朗波斯语(伊朗)发音词典
文本 ASR, TTS, 语言建模 N/A 80,000个单词 添加到咨询列表 pes_IRN_PHON Appen Global 发音词典 波斯语 伊朗 N/A N/A N/A N/A 80,000 N/A text Y
183
伊朗波斯语(伊朗)词性词典
文本 ASR, TTS, 语言建模 N/A 1,400,000个单词 添加到咨询列表 pes_IRN_POS Appen Global 词性词典 波斯语 伊朗 N/A N/A N/A N/A 14,00,000 N/A text Y
229
俄罗斯(Russia)发音词典
文本 ASR, TTS, 语言建模 N/A 115,000个单词 添加到咨询列表 rus_RUS_PHON Appen Global 发音词典 俄语 俄国 N/A N/A N/A N/A 1,15,000 N/A text E
82
俄罗斯(Russia)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 37小时 添加到咨询列表 RUS_ASR001 Appen Global 对话录音 俄语 俄国 低背景噪音 200 2 可根据要求提供 28,284 8 alaw或wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
E
84
俄罗斯(Russia)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 仅固定电话 180小时 添加到咨询列表 Russian SpeechDat(E) Database Nuance 有定稿的录音 俄语 俄国 低背景噪音 2,500 1 1,12,000 可根据要求提供 8 alaw 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制45个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
E
83
俄罗斯(Russia)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 31小时 添加到咨询列表 RUS_ASR002 Global Phone 有定稿的录音 俄语 俄国 低背景噪音(家庭/办公室) 115 1 12,205 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
E
96
俄罗斯(Russia)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 46小时 添加到咨询列表 Speecon Russian Database Nuance 有定稿的录音 俄语 俄国 混合(办公室/娱乐场所/车内/公共场所) 600(550个成年语料提供者及50个儿童语料提供者) 4 1,70,000 可根据要求提供 16 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年语料提供者录制290个语料,每个儿童语料提供者录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童语料提供者还需要提供关于玩具,手机的指令以及通用指令,成年语料提供者还需要提供应用词汇,以及自由发挥的语料
E
230
俄罗斯(Russia)词性词典
文本 ASR, TTS, 语言建模 N/A 100,000个单词 添加到咨询列表 rus_RUS_POS Appen Global 词性词典 俄语 俄国 N/A N/A N/A N/A 1,00,000 N/A text E
133
俄语NER语料库
文本 NER, 内容分类, 搜索引擎 N/A 29,888个句子 添加到咨询列表 RUS_NER001 Appen Global NER 俄语 俄国 N/A N/A N/A 29,888 可根据要求提供 N/A text E
155
保加利亚语(保加利亚)发音词典
文本 ASR, TTS, 语言建模 N/A 55,000个单词 添加到咨询列表 bul_BGR_PHON Appen Global 发音词典 保加利亚语 保加利亚 N/A N/A N/A N/A 55,000 N/A text B
7
保加利亚语(保加利亚)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 38小时 添加到咨询列表 BUL_ASR001 Appen Global 对话录音 保加利亚语 保加利亚 低背景噪音(家庭/办公室) 217 2 可根据要求提供 22,342 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
B
111
保加利亚语(保加利亚)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 22小时 添加到咨询列表 BUL_ASR002 Global Phone 有定稿的录音 保加利亚语 保加利亚 低背景噪音(家庭/办公室) 77 1 8,674 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
B
161
克罗地亚语(克罗地亚)发音词典
文本 ASR, TTS, 语言建模 N/A 20,000个单词 添加到咨询列表 hrv_HRV_PHON Appen Global 发音词典 克罗地亚语 克罗地亚 N/A N/A N/A N/A 20,000 N/A text K
10
克罗地亚语(克罗地亚)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 39小时 添加到咨询列表 CRO_ASR001 Appen Global 对话录音 克罗地亚语 克罗地亚 低背景噪音(家庭/办公室) 200 2 可根据要求提供 23,919 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
K
116
克罗地亚语(克罗地亚)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人 移动电话 263小时 添加到咨询列表 CRO_ASR003_CN Appen China 有定稿的录音 克罗地亚语 克罗地亚 低背景噪音(家庭/办公室) 243 1 73,467 1,36,140 16 wav 数据集已完全转录 K
11
克罗地亚语(克罗地亚)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 11小时 添加到咨询列表 CRO_ASR002 Global Phone 有定稿的录音 克罗地亚语 克罗地亚 低背景噪音(家庭/办公室) 94 1 4,499 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
K
159
加泰罗尼亚语(西班牙)发音词典
文本 ASR, TTS, 语言建模 N/A 10,000个单词 添加到咨询列表 cat_ESP_PHON Appen Global 发音词典 加泰罗尼亚语 西班牙 N/A N/A N/A N/A 10,000 N/A text J
198
匈牙利语(匈牙利)发音词典
文本 ASR, TTS, 语言建模 N/A 500个单词 添加到咨询列表 hun_HUN_PHON Appen Global 发音词典 匈牙利语 匈牙利 N/A N/A N/A N/A 500 N/A text X
119
匈牙利语(匈牙利)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人 移动电话 286小时 添加到咨询列表 HUN_ASR001_CN Appen China 有定稿的录音 匈牙利语 匈牙利 低背景噪音(家庭/办公室) 254 1 94,031 2,01,921 16 wav 数据集已完全转录 X
49
匈牙利语(匈牙利)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 仅固定电话 65小时 添加到咨询列表 Hungarian SpeechDat(E) Nuance 有定稿的录音 匈牙利语 匈牙利 低背景噪音 1,000 1 48,000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
X
205
卡纳达语(印度)发音词典
文本 ASR, TTS, 语言建模 N/A 35,000个单词 添加到咨询列表 kan_IND_PHON Appen Global 发音词典 坎那达语 印度 N/A N/A N/A N/A 35,000 N/A text K
58
卡纳达语(印度)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 15小时 添加到咨询列表 KAN_ASR001 Appen Global 对话录音 坎那达语 印度 混合 178 2 可根据要求提供 15,660 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
K
109
卡纳达语(印度)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 57小时 添加到咨询列表 KAN_ASR001A Appen Global 对话录音 坎那达语 印度 混合 1,000 2 可根据要求提供 15,660 8 alaw 数据集中大约25%的会话被转录并加盖了时间戳,可以提供完整的转录文本
数据库附带一个包含所有转录词的发音词典
K
166
卢奥语(肯尼亚)发音词典
文本 ASR, TTS, 语言建模 N/A 20,000个单词 添加到咨询列表 luo_KEN_PHON Appen Global 发音词典 卢奥语 肯尼亚 N/A N/A N/A N/A 20,000 N/A text L
197
印地语(印度)发音词典
文本 ASR, TTS, 语言建模 N/A 35,000个单词 添加到咨询列表 hin_IND_PHON Appen Global 发音词典 印地语 印度 N/A N/A N/A N/A 35,000 N/A text Y
48
印地语(印度)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 32小时 添加到咨询列表 HIN_ASR002 Appen Global 对话录音 印地语 印度 混合 996 2 可根据要求提供 12,266 8 wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
在大多数的通话中,对话双方的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话被收集并转录了
Y
47
印地语(印度)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 移动电话 224小时 添加到咨询列表 HIN_ASR001 Appen Global 有定稿的录音 印地语 印度 低背景噪音 1,920 1 96,000 9,853 8 alaw 完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典[SAMPA]
每个语料提供者录制50个语料,语料包括数字,自然数,个人、地点和企业名称,网址,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
Y
151
印尼文(印度尼西亚)发音词典
文本 ASR, TTS, 语言建模 N/A 95,000个单词 添加到咨询列表 ind_IDN_PHON Appen Global 发音词典 印度尼西亚语 印度尼西亚 N/A N/A N/A N/A 95,000 N/A text Y
152
印尼文(印度尼西亚)词性词典
文本 ASR, TTS, 语言建模 N/A 10,000个单词 添加到咨询列表 ind_IDN_POS Appen Global 词性词典 印度尼西亚语 印度尼西亚 N/A N/A N/A N/A 10,000 N/A text Y
4
印尼语(印度尼西亚)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 31小时 添加到咨询列表 BAH_ASR001 Appen Global 对话录音 印度尼西亚语 印度尼西亚 低背景噪音 1,002 2 可根据要求提供 11,480 8 wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
对于很大比例的电话录音,只有一半的对话被收集和转录
Y
256
吴语(中国)发音词典
文本 ASR, TTS, 语言建模 N/A 10,000个单词 添加到咨询列表 wuu_CHN_PHON Appen Global 发音词典 吴语 中国 N/A N/A N/A N/A 10,000 N/A text W
206
哈萨克语(哈萨克斯坦)发音词典
文本 ASR, TTS, 语言建模 N/A 30,000个单词 添加到咨询列表 kaz_KAZ_PHON Appen Global 发音词典 哈萨克语 哈萨克斯坦 N/A N/A N/A N/A 30,000 N/A text H
250
土耳其语(土耳其)发音词典
文本 ASR, TTS, 语言建模 N/A 255,000个单词 添加到咨询列表 tur_TUR_PHON Appen Global 发音词典 土耳其语 土耳其 N/A N/A N/A N/A 2,55,000 N/A text T
102
土耳其语(土耳其)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 41小时 添加到咨询列表 TUR_ASR001 Appen Global 对话录音 土耳其语 土耳其 低背景噪音 200 2 可根据要求提供 32,386 8 alaw或wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
T
121
土耳其语(土耳其)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人 移动电话 739小时 添加到咨询列表 TUR_ASR003_CN Appen China 有定稿的录音 土耳其语 土耳其 低背景噪音(家庭/办公室) 664 1 1,85,706 2,15,135 16 wav 数据集已完全转录 T
69
土耳其语(土耳其)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 移动电话和固定电话 118小时 添加到咨询列表 OrienTel Turkish Database Nuance 有定稿的录音 土耳其语 土耳其 低背景噪音 1,700 1 76,500 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制45个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
T
251
土耳其语(土耳其)词性词典
文本 ASR, TTS, 语言建模 N/A 257,000个单词 添加到咨询列表 tur_TUR_POS Appen Global 词性词典 土耳其语 土耳其 N/A N/A N/A N/A 2,57,000 N/A text T
103
土耳其语(土耳其)麦克风录音数据库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 17小时 添加到咨询列表 TUR_ASR002 Global Phone 有定稿的录音 土耳其语 土耳其 低背景噪音(家庭/办公室) 100 1 6,950 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
T
245
塔加洛语(菲律宾)发音词典
文本 ASR, TTS, 语言建模 N/A 30,000个单词 添加到咨询列表 tgl_PHL_PHON Appen Global 发音词典 塔加拉族语 菲律宾 N/A N/A N/A N/A 30,000 N/A text T
231
塞尔维亚语(塞尔维亚)发音词典
文本 ASR, TTS, 语言建模 N/A 15,000个单词 添加到咨询列表 srp_SRB_PHON Appen Global 发音词典 塞尔维亚语 塞尔维亚 N/A N/A N/A N/A 15,000 N/A text S
244
塞海蒂语(孟加拉国-印度)发音词典
文本 ASR, TTS, 语言建模 N/A 22,000个单词 添加到咨询列表 syl_BGD -IND_PHON Appen Global 发音词典 塞海蒂语 孟加拉国-印度 N/A N/A N/A N/A 22,000 N/A text S
220
奥里雅语(印度)发音词典
文本 ASR, TTS, 语言建模 N/A 15,000个单词 添加到咨询列表 ori_IND_PHON Appen Global 发音词典 奥里雅语 印度 N/A N/A N/A N/A 15,000 N/A text A
124
婴幼儿啼哭语料库
音频 婴儿监控器, 安全及其他消费者应用程序 移动电话 3小时 添加到咨询列表 CRY_ASR001 Appen China 人声 N/A 中国 低背景噪音(家庭/办公室) 100 1 NA NA 16 wav 0到3岁婴儿的哭声,每个录音持续2分钟左右 Z
154
孟加拉语(印度)发音词典
文本 ASR, TTS, 语言建模 N/A 29,000个单词 添加到咨询列表 ben_IND_PHON Appen Global 发音词典 孟加拉语 印度 N/A N/A N/A N/A 29,000 N/A text M
6
孟加拉语(孟加拉国)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 47小时 添加到咨询列表 BEN_ASR001 Appen Global 对话录音 孟加拉语 孟加拉国 混合(车内/路边/家庭/办公室) 1,000 2 可根据要求提供 17,922 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
M
160
宿雾语(菲律宾)发音词典
文本 ASR, TTS, 语言建模 N/A 20,000个单词 添加到咨询列表 ceb_PHL_PHON Appen Global 发音词典 宿雾语 菲律宾 N/A N/A N/A N/A 20,000 N/A text S
153
巴斯克(西班牙)发音词典
文本 ASR, TTS, 语言建模 N/A 10,000个单词 添加到咨询列表 eus_ESP_PHON Appen Global 发音词典 巴斯克语 西班牙 N/A N/A N/A N/A 10,000 N/A text B
196
希伯来语(以色列)发音词典
文本 ASR, TTS, 语言建模 N/A 31,000个单词 添加到咨询列表 heb_ISR_PHON Appen Global 发音词典 希伯来语 以色列 N/A N/A N/A N/A 31,000 N/A text X
46
希伯来语(以色列)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 34小时 添加到咨询列表 HEB_ASR001 Appen Global 对话录音 希伯来语 以色列 低背景噪音 200 2 可根据要求提供 19,250 8 alaw或wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
X
191
希腊语(希腊)发音词典
文本 ASR, TTS, 语言建模 N/A 5,000个单词 添加到咨询列表 ell_GRC_PHON Appen Global 发音词典 希腊语 希腊 N/A N/A N/A N/A 5,000 N/A text X
118
希腊语(希腊)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人 移动电话 191小时 添加到咨询列表 GRE_ASR001_CN Appen China 有定稿的录音 希腊语 希腊 低背景噪音(家庭/办公室) 287 1 54,113 68,271 16 wav 数据集已完全转录 X
156
广东话(中国)发音词典
文本 ASR, TTS, 语言建模 N/A 37,000个单词 添加到咨询列表 yue_CHN_PHON Appen Global 发音词典 广东话 (粤语) 中国 N/A N/A N/A N/A 37,000 N/A text 简体 G
157
广东话(中国)发音词典
文本 ASR, TTS, 语言建模 N/A 40,000个单词 添加到咨询列表 yue_CHN_PHON Appen Global 发音词典 广东话 (粤语) 中国 N/A N/A N/A N/A 40,000 N/A text 繁体 G
158
广东话(中国)词性词典
文本 ASR, TTS, 语言建模 N/A 10,000个单词 添加到咨询列表 yue_HKG_POS Appen Global 词性词典 广东话 (粤语) 中国 N/A N/A N/A N/A 10,000 N/A text 繁体 G
209
库尔曼吉(土耳其)发音词典
文本 ASR, TTS, 语言建模 N/A 60,000个单词 添加到咨询列表 kur_TUR_PHON Appen Global 发音词典 库尔德语 土耳其 N/A N/A N/A N/A 60,000 N/A text K
61
德语(卢森堡)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 仅固定电话 33小时 添加到咨询列表 Luxembourgish German SpeechDat(II) FDB-500 (FIXED1LG) Nuance 有定稿的录音 德语 卢森堡 低背景噪音 500 1 26,500 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制53个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
D
68
德语(土耳其)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 移动电话和固定电话 31小时 添加到咨询列表 OrienTel German Spoken by Turkish Nuance 有定稿的录音 德语 土耳其 低背景噪音 300 1 15,600 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制52个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
D
189
德语(德国)发音词典
文本 ASR, TTS, 语言建模 N/A 146,000个单词 添加到咨询列表 deu_DEU_PHON Appen Global 发音词典 德语 德国 N/A N/A N/A N/A 1,46,000 N/A text D
16
德语(德国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 16小时 添加到咨询列表 DEU_ASR001 Appen Global 有定稿的录音 德语 德国 低背景噪音(录音棚) 127 2 12,700 6,826 16 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
每个语料提供者录制100个语料,语料包括数字,自然数,人名,城市名,电话号码,通用指令和特定指令,语音丰富的句子和单词
D
18
德语(德国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 25小时 添加到咨询列表 DEU_ASR003 Global Phone 有定稿的录音 德语 德国 低背景噪音(家庭/办公室) 77 1 10,085 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
D
42
德语(德国)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 仅固定电话 31小时 添加到咨询列表 German SpeechDat (II) FDB-1000 Nuance 有定稿的录音 德语 德国 低背景噪音(家庭/办公室) 988 1 43,000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制44个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
D
43
德语(德国)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 仅固定电话 268小时 添加到咨询列表 German SpeechDat(II) FDB-4000 Nuance 有定稿的录音 德语 德国 低背景噪音(家庭/办公室) 4,000 1 1,60,000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制40个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
D
190
德语(瑞士)发音词典
文本 ASR, TTS, 语言建模 N/A 15,000个单词 添加到咨询列表 deu_CHE_PHON Appen Global 发音词典 德语 瑞士 N/A N/A N/A N/A 15,000 N/A text D
94
德语(瑞士)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 53小时 添加到咨询列表 Speecon German (Switzerland) database Nuance 有定稿的录音 德语 瑞士 混合(办公室/娱乐场所/车内/公共场所) 600(550个成年语料提供者及50个儿童语料提供者) 4 1,70,000 可根据要求提供 16 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年语料提供者录制290个语料,每个儿童语料提供者录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童语料提供者还需要提供关于玩具,手机的指令以及通用指令,成年语料提供者还需要提供应用词汇,以及自由发挥的语料
D
200
意大利文(意大利)发音词典
文本 ASR, TTS, 语言建模 N/A 197,000个单词 添加到咨询列表 ita_ITA_PHON Appen Global 发音词典 意大利语 意大利 N/A N/A N/A N/A 1,97,000 N/A text Y
52
意大利文(意大利)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 36小时 添加到咨询列表 ITA_ASR003 Appen Global 对话录音 意大利语 意大利 低背景噪音 200 2 可根据要求提供 18,974 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
Y
50
意大利文(意大利)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 44小时 添加到咨询列表 ITA_ASR001 Appen Global 有定稿的录音 意大利语 意大利 混合 200 4 40,000 7,316 22 alaw 完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个语料提供者录制200个语料,语料包括100个命令和特定指令,100个语音丰富的句子
Y
51
意大利文(意大利)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 车载HMI及娱乐设备 麦克风 47小时 添加到咨询列表 ITA_ASR002 Appen Global 有定稿的录音 意大利语 意大利 混合(车内) 103 4 35,875 10,366 48 alaw 完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个语料提供者录制350个语料,语料包括数字,街道名称,通用指令和特定指令,语音丰富的句子和单词
每个语料提供者录制了1到2段样本,第一段在未熄火的停靠车辆中录制,第二段在以每小时60英里(100 公里 / 小时)的速度行驶的车辆中录制
Y
53
意大利文(意大利)有定稿的麦克风录音语料库
音频 TTS 麦克风 3小时 添加到咨询列表 ITA_TTS001 Appen Global 有定稿的录音 意大利语 意大利 低背景噪音(录音棚) 1 1 3,300 可根据要求提供 22 alaw 数据集随附一个发音词典,其中包含该数据集中所说的所有单词
每个语料提供者录制3300条语料,包括语音丰富的句子
Y
54
意大利文(意大利)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 仅固定电话 38小时 添加到咨询列表 Italian Fixed Network Speech SpeechDat(M) Corpus Nuance 有定稿的录音 意大利语 意大利 低背景噪音(家庭/办公室) 1,000 1 39,000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制39个语料,语料包含连续和间隔的数字,自然数,金额,拼写单词,时间和日期短语,是/否问题,常见的应用词汇,在短语中的应用词汇以及语音丰富的句子
Y
55
意大利文(意大利)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 仅固定电话 228小时 添加到咨询列表 Italian SpeechDat(II) FDB-3000 Nuance 有定稿的录音 意大利语 意大利 低背景噪音(家庭/办公室) 3,040 1 1,34,000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制44个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
Y
56
意大利文(意大利)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 移动电话 103小时 添加到咨询列表 Italian SpeechDat(II) MDB-250 Nuance 有定稿的录音 意大利语 意大利 低背景噪音(家庭/办公室) 375 1 19,000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制51个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
Y
89
意大利文(意大利)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 移动电话 13小时 添加到咨询列表 SpeechDat(M) Italian Mobile Network Speech Database Nuance 有定稿的录音 意大利语 意大利 低背景噪音(家庭/办公室) 342 1 13,500 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制40个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
Y
201
意大利文(意大利)词性词典
文本 ASR, TTS, 语言建模 N/A 147,000个单词 添加到咨询列表 ita_ITA_POS Appen Global 词性词典 意大利语 意大利 N/A N/A N/A N/A 1,47,000 N/A text Y
249
托皮辛(巴布亚新几内亚)发音词典
文本 ASR, TTS, 语言建模 N/A 10,000个单词 添加到咨询列表 tpi_PNG_PHON Appen Global 发音词典 托克皮辛语 巴布亚新几内亚 N/A N/A N/A N/A 10,000 N/A text T
218
挪威语(挪威)发音词典
文本 ASR, TTS, 语言建模 N/A 115,000个单词 添加到咨询列表 nor_NOR_PHON Appen Global 发音词典 挪威语 挪威 N/A N/A N/A N/A 1,15,000 N/A text N
219
挪威语(挪威)词性词典
文本 ASR, TTS, 语言建模 N/A 3,000个单词 添加到咨询列表 nor_NOR_POS Appen Global 词性词典 挪威语 挪威 N/A N/A N/A N/A 3,000 N/A text N
162
捷克文(捷克共和国)发音词典
文本 ASR, TTS, 语言建模 N/A 50,000个单词 添加到咨询列表 ces_CZE_PHON Appen Global 发音词典 捷克语 捷克共和国 N/A N/A N/A N/A 50,000 N/A text J
13
捷克文(捷克共和国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 仅固定电话 93小时 添加到咨询列表 Czech SpeechDat(E) Dataset Nuance 有定稿的录音 捷克语 捷克共和国 低背景噪音 1,000 1 52,000 可根据要求提供 8 alaw 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制52个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
J
12
捷克文(捷克共和国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 31小时 添加到咨询列表 CZE_ASR001 Global Phone 有定稿的录音 捷克语 捷克共和国 低背景噪音(家庭/办公室) 102 1 12,425 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
J
85
斯洛伐克(Slovakia)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 仅固定电话 65小时 添加到咨询列表 Slovak SpeechDat(E) Database Nuance 有定稿的录音 斯洛伐克语 斯洛伐克 低背景噪音 1,000 1 48,000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
S
86
斯洛文尼亚语(Slovenian)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 仅固定电话 76小时 添加到咨询列表 Slovenian SpeechDat(II) FDB-1000 Nuance 有定稿的录音 斯洛维尼亚语 斯洛文尼亚 低背景噪音(家庭/办公室) 1,000 1 40,000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制大约40个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
S
241
斯瓦希里语(肯尼亚)发音词典
文本 ASR, TTS, 语言建模 N/A 66,000个单词 添加到咨询列表 swa_KEN_PHON Appen Global 发音词典 斯瓦西里语 肯尼亚 N/A N/A N/A N/A 66,000 N/A text S
80
旁遮普语(巴基斯坦)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 20小时 添加到咨询列表 PAP_ASR001 Appen Global 对话录音 旁遮普语 巴基斯坦 低背景噪音 205 2 可根据要求提供 7,298 8 alaw 数据集已完全转录并加盖了时间戳
数据集附带一个包含所有转录词的发音词典
在71%的对话中,对话双方(呼入者和呼出者)的说话内容都被收集转录了,在剩下的29%的对话中,只有一半的对话被收集并转录了
P
136
日语NER语料库
文本 NER, 内容分类, 搜索引擎 N/A 20,629个句子 添加到咨询列表 JPY_NER001 Appen Global NER 日语 日本 N/A N/A N/A 20,629 可根据要求提供 N/A text R
202
日语(日本)发音词典
文本 ASR, TTS, 语言建模 N/A 262,000个单词 添加到咨询列表 jpn_JPN_PHON Appen Global 发音词典 日语 日本 N/A N/A N/A N/A 2,62,000 N/A text R
57
日语(日本)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 33小时 添加到咨询列表 JPN_ASR001 Global Phone 有定稿的录音 日语 日本 低背景噪音(家庭/办公室) 144 1 13,067 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
R
95
日语(日本)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 57小时 添加到咨询列表 Speecon Japanese Nuance 有定稿的录音 日语 日本 混合(办公室/娱乐场所/车内/公共场所) 600(550个成年语料提供者及50个儿童语料提供者) 4 1,70,000 可根据要求提供 16 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年语料提供者录制290个语料,每个儿童语料提供者录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童语料提供者还需要提供关于玩具,手机的指令以及通用指令,成年语料提供者还需要提供应用词汇,以及自由发挥的语料
R
203
日语(日本)词性词典
文本 ASR, TTS, 语言建模 N/A 265,000个单词 添加到咨询列表 jpn_JPN_POS Appen Global 词性词典 日语 日本 N/A N/A N/A N/A 2,65,000 N/A text R
221
普什图(阿富汗)发音词典
文本 ASR, TTS, 语言建模 N/A 65,000个单词 添加到咨询列表 pus_AFG_PHON Appen Global 发音词典 普什图语 阿富汗 N/A N/A N/A N/A 65,000 N/A text P
72
普什图(阿富汗)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 55小时 添加到咨询列表 PAS_ASR001 Appen Global 对话录音 普什图语 阿富汗 低背景噪音 967 2 可根据要求提供 13,633 8 wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
在大多数的通话中,对话双方的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话被收集并转录了
P
73
普什图(阿富汗)对话式麦克风录音语料库
音频 ASR, 对话式AI, 语音分析 麦克风 39小时 添加到咨询列表 PAS_ASR002 Appen Global 对话录音 普什图语 阿富汗 低背景噪音 40 2 可根据要求提供 9,480 16 wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
转录文本可全部被翻译成法文, 作为可选的额外购买项
平均通话时间为120分钟,每则通话中由一名发言人担任采访者,另一名发言人担任受访者,模仿类似于TransTAC风格的场景(例如民政事务询问,检查站询问等)
面试官出现在不止一组对话中,但每组对话中的被面试者都是唯一的
P
74
普什图(阿富汗)广播录音数据库
音频 ASR, 自动字幕, 关键字检索 麦克风 51小时 添加到咨询列表 PAS_BRC001 Appen Global 广播录音 普什图语 阿富汗 低背景噪音(录音棚) N/A 1 可根据要求提供 可根据要求提供 N/A wav 数据集已完全转录并加上时间戳
数据集主要是语音,不包括音乐或广告
数据类型包括:脱口秀,访谈,新闻广播(不包括主持人阅读的新闻)
P
134
普通话NER语料库
文本 NER, 内容分类, 搜索引擎 N/A 17,313个句子 添加到咨询列表 MAC_NER001 Appen Global NER 普通话 中国 N/A N/A N/A 17,313 可根据要求提供 N/A text P
62
普通话(中国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 移动电话和固定电话 323小时 添加到咨询列表 MAC_ASR001 Appen Global 有定稿的录音 普通话 中国 混合 2,000 1 2,00,000 7,145 8 alaw 完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典[SAMPA]
每个语料提供者录制98个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令(从215个指令中挑选),语音丰富的句子和单词
P
63
普通话(中国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 26小时 添加到咨询列表 MAC_ASR002 Global Phone 有定稿的录音 普通话 中国 低背景噪音(家庭/办公室) 132 1 10,225 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
P
214
普通话(简体)(中国)发音词典
文本 ASR, TTS, 语言建模 N/A 35,000个单词 添加到咨询列表 zho_CHN_PHON Appen Global 发音词典 中文(简体) 中国 N/A N/A N/A N/A 35,000 N/A text P
215
普通话(繁体)(台湾)发音词典
文本 ASR, TTS, 语言建模 N/A 50,000个单词 添加到咨询列表 zho_TWN_PHON Appen Global 发音词典 中文(繁体) 台湾 N/A N/A N/A N/A 50,000 N/A text P
186
法语(加拿大)发音词典
文本 ASR, TTS, 语言建模 N/A 67,000个单词 添加到咨询列表 fra_CAN_PHON Appen Global 发音词典 法语 加拿大 N/A N/A N/A N/A 67,000 N/A text F
36
法语(加拿大)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 9小时 添加到咨询列表 FRC_ASR003 Appen Global 对话录音 法语 加拿大 混合 68 2 可根据要求提供 6,022 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
平均通话时长为10到15分钟
在大多数通话中,只有一半的对话被收集并转录了,但是对于一小部分的通话,对话双方(呼入者和呼出者)的说话内容都被收集并转录了
F
34
法语(加拿大)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 移动电话 131小时 添加到咨询列表 FRC_ASR001 Appen Global 有定稿的录音 法语 加拿大 混合 1,000 1 1,00,000 11,697 8 alaw 完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典[SAMPA]
每个语料提供者录制100个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
F
35
法语(加拿大)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 46小时 添加到咨询列表 FRC_ASR002 Appen Global 有定稿的录音 法语 加拿大 低背景噪音(家庭/办公室) 150 1 22,500 10,755 16 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
每个语料提供者录制150个语料,语料包含数字,数字串(随机生成的),地址,语音丰富的句子和单词
F
60
法语(卢森堡)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 仅固定电话 45小时 添加到咨询列表 Luxembourgish French SpeechDat(II) FDB-500 (FIXED1LF) Nuance 有定稿的录音 法语 卢森堡 低背景噪音 614 1 32,000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制53个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
F
5
法语(比利时)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 仅固定电话 76小时 添加到咨询列表 Belgian French SpeechDat(II) FDB-1000 (FIXED1BF) Nuance 有定稿的录音 法语 比利时 低背景噪音 1,000 1 53,000 可根据要求提供 8 alaw 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制53个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令
F
187
法语(法国)发音词典
文本 ASR, TTS, 语言建模 N/A 112,000个单词 添加到咨询列表 fra_FRA_PHON Appen Global 发音词典 法语 法国 N/A N/A N/A N/A 1,12,000 N/A text F
40
法语(法国)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 25小时 添加到咨询列表 FRF_ASR001 Appen Global 对话录音 法语 法国 低背景噪音 563 2 可根据要求提供 11,922 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
在大多数的通话中,对话双方的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话被收集并转录了
F
37
法语(法国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 仅固定电话 41小时 添加到咨询列表 French SpeechDat(II) FDB-1000 Nuance 有定稿的录音 法语 法国 低背景噪音(家庭/办公室) 1,017 1 48,000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
F
38
法语(法国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 仅固定电话 305小时 添加到咨询列表 French SpeechDat(II) FDB-5000 Nuance 有定稿的录音 法语 法国 低背景噪音 5,040 1 2,37,000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制47个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
F
41
法语(法国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 26小时 添加到咨询列表 FRF_ASR003 Global Phone 有定稿的录音 法语 法国 低背景噪音(家庭/办公室) 98 1 10,273 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
F
188
法语(法国)词性词典
文本 ASR, TTS, 语言建模 N/A 95,000个单词 添加到咨询列表 fra_FRA_POS Appen Global 词性词典 法语 法国 N/A N/A N/A N/A 95,000 N/A text F
39
法语(法国)车内录音语料库
音频 ASR, 虚拟助手, 车载HMI及娱乐设备 麦克风和移动电话 添加到咨询列表 French SpeechDat-Car Nuance 有定稿的录音 法语 法国 混合(车内) 300 5 37,500 可根据要求提供 16和8 可根据要求提供 数据集已完全转录,并附有发音词典和验证报告
每个语料提供者录制大约125个语料,语料包含数字,自然数,字母串,个人、地点和企业名称(一些是自由发挥的),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的语料
F
145
法语(阿尔及利亚)发音词典
文本 ASR, TTS, 语言建模 N/A 4,000个单词 添加到咨询列表 fra_DZA_PHON Appen Global 发音词典 法语 阿尔及利亚 N/A N/A N/A N/A 4,000 N/A text 阿拉伯文字 F
222
波兰语(波兰)发音词典
文本 ASR, TTS, 语言建模 N/A 40,000个单词 添加到咨询列表 pol_POL_PHON Appen Global 发音词典 波兰语 波兰 N/A N/A N/A N/A 40,000 N/A text B
120
波兰语(波兰)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人 移动电话 293小时 添加到咨询列表 POL_ASR002_CN Appen China 有定稿的录音 波兰语 波兰 低背景噪音(家庭/办公室) 353 1 1,06,674 1,68,544 16 wav 数据集已完全转录 B
76
波兰语(波兰)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 仅固定电话 78小时 添加到咨询列表 Polish SpeechDat(E) Database Nuance 有定稿的录音 波兰语 波兰 低背景噪音 1,000 1 48,000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
B
75
波兰语(波兰)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 25小时 添加到咨询列表 POL_ASR001 Global Phone 有定稿的录音 波兰语 波兰 低背景噪音(家庭/办公室) 99 1 10,130 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
B
223
波兰语(波兰)词性词典
文本 ASR, TTS, 语言建模 N/A 4,000个单词 添加到咨询列表 pol_POL_POS Appen Global 词性词典 波兰语 波兰 N/A N/A N/A N/A 4,000 N/A text B
135
波斯语NER语料库
文本 NER, 内容分类, 搜索引擎 N/A 19,584个句子 添加到咨询列表 FAR_NER001 Appen Global NER 波斯语 伊朗 N/A N/A N/A 19,584 可根据要求提供 N/A text B
32
波斯语(伊朗)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 30小时 添加到咨询列表 FAR_ASR002 Appen Global 对话录音 波斯语 伊朗 混合 1,000 2 可根据要求提供 12,358 8 wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
B
31
波斯语(伊朗)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 移动电话和固定电话 85小时 添加到咨询列表 FAR_ASR001 Appen Global 有定稿的录音 波斯语 伊朗 混合 789 1 38,400 8,716 8 alaw 完全转录为OrienTel类型
数据集附带一个包含所有转录词的发音词典[SAMPA]
每个语料提供者录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
B
246
泰卢固语(印度)发音词典
文本 ASR, TTS, 语言建模 N/A 50,000个单词 添加到咨询列表 tel_IND_PHON Appen Global 发音词典 泰卢固语 印度 N/A N/A N/A N/A 50,000 N/A text T
247
泰米尔文(印度)发音词典
文本 ASR, TTS, 语言建模 N/A 105,000个单词 添加到咨询列表 tam_IND_PHON Appen Global 发音词典 泰米尔语 印度 N/A N/A N/A N/A 1,05,000 N/A text T
127
泰语(泰国)印刷文本OCR
图像 文件处理, 文件搜索 照相机 1219张图片 添加到咨询列表 IMG_OCR_THA_CN Appen China OCR 泰语 泰国 不同光线 10 NA NA NA NA jpg 包含文字的图像,例如购物收据,票据,发票,出租车发票等等 T
248
泰语(泰国)发音词典
文本 ASR, TTS, 语言建模 N/A 30,000个单词 添加到咨询列表 tha_THA_PHON Appen Global 发音词典 泰语 泰国 N/A N/A N/A N/A 30,000 N/A text T
101
泰语(泰国)麦克风录音数据库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 28小时 添加到咨询列表 THA_ASR001 Global Phone 有定稿的录音 泰语 泰国 低背景噪音(家庭/办公室) 98 1 14,039 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
T
194
海地克里奥尔语(海地)发音词典
文本 ASR, TTS, 语言建模 N/A 15,000个单词 添加到咨询列表 hat_HTI_PHON Appen Global 发音词典 海地克里奥尔语 海地 N/A N/A N/A N/A 15,000 N/A text H
257
湘语(中国)发音词典
文本 ASR, TTS, 语言建模 N/A 10,000个单词 添加到咨询列表 hsn_CHN_PHON Appen Global 发音词典 湘语 中国 N/A N/A N/A N/A 10,000 N/A text X
204
爪哇语(印度尼西亚)发音词典
文本 ASR, TTS, 语言建模 N/A 20,000个单词 添加到咨询列表 jav_IDN_PHON Appen Global 发音词典 爪哇语 印度尼西亚 N/A N/A N/A N/A 20,000 N/A text G
242
瑞典文(瑞典)发音词典
文本 ASR, TTS, 语言建模 N/A 100,000个单词 添加到咨询列表 swe_SWE_PHON Appen Global 发音词典 瑞典语 瑞典 N/A N/A N/A N/A 1,00,000 N/A text R
243
瑞典文(瑞典)词性词典
文本 ASR, TTS, 语言建模 N/A 105,000个单词 添加到咨询列表 swe_SWE_POS Appen Global 词性词典 瑞典语 瑞典 N/A N/A N/A N/A 1,05,000 N/A text R
98
瑞典(瑞典/芬兰)麦克风录音数据库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 30小时 添加到咨询列表 SWE_ASR001 Global Phone 有定稿的录音 瑞典语 瑞典-芬兰 低背景噪音(家庭/办公室) 98 1 11,816 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
R
192
瓜拉尼语(巴拉圭)发音词典
文本 ASR, TTS, 语言建模 N/A 35,000个单词 添加到咨询列表 grn_PRY_PHON Appen Global 发音词典 瓜拉尼语 巴拉圭 N/A N/A N/A N/A 35,000 N/A text G
258
祖鲁人(南非)发音词典
文本 ASR, TTS, 语言建模 N/A 75,000个单词 添加到咨询列表 zul_ZAF_PHON Appen Global 发音词典 祖鲁语 南非 N/A N/A N/A N/A 75,000 N/A text Z
211
立陶宛语(立陶宛)发音词典
文本 ASR, TTS, 语言建模 N/A 60,000个单词 添加到咨询列表 lit_LTU_PHON Appen Global 发音词典 立陶宛语 立陶宛 N/A N/A N/A N/A 60,000 N/A text L
126
简体中文印刷文本OCR
图像 文件处理, 文件搜索 照相机 200张图片 添加到咨询列表 IMG_OCR_MAC_CN Appen China OCR N/A 中国 不同光线 30 NA NA NA NA jpg 每张图片中的文字均被线条边框所标记
包含大量中文的图像,例如书籍,出版物,海报,收据,PPT以及印刷品等等
Z
233
索拉尼(伊拉克)发音词典
文本 ASR, TTS, 语言建模 N/A 25,000个单词 添加到咨询列表 kur_IRQ_PHON Appen Global 发音词典 索马里语 伊拉克 N/A N/A N/A N/A 25,000 N/A text S
232
索马里(索马里)发音词典
文本 ASR, TTS, 语言建模 N/A 76,000个单词 添加到咨询列表 som_SOM_PHON Appen Global 发音词典 索马里语 索马里 N/A N/A N/A N/A 76,000 N/A text S
87
索马里(索马里)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 50小时 添加到咨询列表 SOM_ASR001 Appen Global 对话录音 索马里语 索马里 低背景噪音 1,000 2 可根据要求提供 23,217 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
S
228
罗马尼亚语(罗马尼亚)发音词典
文本 ASR, TTS, 语言建模 N/A 15,000个单词 添加到咨询列表 ron_ROU_PHON Appen Global 发音词典 罗马尼亚语 罗马尼亚 N/A N/A N/A N/A 15,000 N/A text L
81
罗马尼亚语(罗马尼亚)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 37小时 添加到咨询列表 ROM_ASR001 Appen Global 对话录音 罗马尼亚语 罗马尼亚 低背景噪音 200 2 可根据要求提供 16,658 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
L
210
老挝(老挝)发音词典
文本 ASR, TTS, 语言建模 N/A 9,000个单词 添加到咨询列表 lao_LAO_PHON Appen Global 发音词典 老挝语 老挝 N/A N/A N/A N/A 9,000 N/A text L
128
芬兰语(芬兰)印刷文本OCR
图像 文件处理, 文件搜索 照相机 7293张图片 添加到咨询列表 IMG_OCR_FIN_CN Appen China OCR 芬兰语 芬兰 不同光线 4 NA NA NA NA jpg 包含文字的图像,例如广告牌,产品外包装,标志牌,杂志以及菜单等等 F
184
芬兰语(芬兰)发音词典
文本 ASR, TTS, 语言建模 N/A 85,000个单词 添加到咨询列表 fin_FIN_PHON Appen Global 发音词典 芬兰语 芬兰 N/A N/A N/A N/A 85,000 N/A text F
185
芬兰语(芬兰)词性词典
文本 ASR, TTS, 语言建模 N/A 10,000个单词 添加到咨询列表 fin_FIN_POS Appen Global 词性词典 芬兰语 芬兰 N/A N/A N/A N/A 10,000 N/A text F
170
英文(加拿大)发音词典
文本 ASR, TTS, 语言建模 N/A 50,000个单词 添加到咨询列表 eng_CAN_PHON Appen Global 发音词典 英语 加拿大 N/A N/A N/A N/A 50,000 N/A text Y
22
英文(加拿大)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 移动电话和固定电话 144小时 添加到咨询列表 ENC_ASR001 Appen Global 有定稿的录音 英语 加拿大 混合 1,000 1 99,000 12,483 8 alaw或wav 完全转录为SALA II/SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个语料提供者录制99个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
Y
171
英文(加拿大)词性词典
文本 ASR, TTS, 语言建模 N/A 3,000个单词 添加到咨询列表 eng_CAN_POS Appen Global 词性词典 英语 加拿大 N/A N/A N/A N/A 3,000 N/A text Y
174
英文(印度)发音词典
文本 ASR, TTS, 语言建模 N/A 60,000个单词 添加到咨询列表 eng_IND_PHON Appen Global 发音词典 英语 印度 N/A N/A N/A N/A 60,000 N/A text Y
25
英文(印度)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 67小时 添加到咨询列表 ENI_ASR002 Appen Global 对话录音 英语 印度 低背景噪音 540 2 77,565 11,646 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了271个电话对话
Y
24
英文(印度)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 移动电话和固定电话 217小时 添加到咨询列表 ENI_ASR001 Appen Global 有定稿的录音 英语 印度 混合 2,358 1 1,17,900 9,190 8 alaw 完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典[SAMPA]
每个语料提供者录制49个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
Y
175
英文(印度)词性词典
文本 ASR, TTS, 语言建模 N/A 13,000个单词 添加到咨询列表 eng_IND_POS Appen Global 词性词典 英语 印度 N/A N/A N/A N/A 13,000 N/A text Y
172
英文(菲律宾)发音词典
文本 ASR, TTS, 语言建模 N/A 5,000个单词 添加到咨询列表 eng_PHL_PHON Appen Global 发音词典 英语 菲律宾 N/A N/A N/A N/A 5,000 N/A text Y
23
英文(菲律宾)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 53小时 添加到咨询列表 ENF_ASR001 Appen Global 对话录音 英语 菲律宾 低背景噪音 450 2 41,602 7,272 8 alaw或wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
平均通话时长为10到15分钟
Y
21
英文(阿拉伯文-黎凡特/埃及)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 28小时 添加到咨询列表 ENA_ASR001 Appen Global 对话录音 英语 埃及 低背景噪音 250 2 可根据要求提供 5,619 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
平均通话时长为10到15分钟
Y
131
英语NER语料库
文本 NER, 内容分类, 搜索引擎 N/A 22,768个句子 添加到咨询列表 ENG_NER001 Appen Global NER 英语 N/A N/A N/A N/A 22,768 可根据要求提供 N/A text Y
169
英语(澳大利亚)发音词典
文本 ASR, TTS, 语言建模 N/A 157,000个单词 添加到咨询列表 eng_AUS_PHON Appen Global 发音词典 英语 澳大利亚 N/A N/A N/A N/A 1,57,000 N/A text Y
2
英语(澳大利亚)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 移动电话和固定电话 92小时 添加到咨询列表 AUS_ASR001 Appen Global 有定稿的录音 英语 澳大利亚 低背景噪音(家庭/办公室) 500 1 82,500 35,137 8 alaw 完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个语料提供者录制162个朗读录音,录音包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令(从215个指令中挑选),语音丰富的句子和单词
E
3
英语(澳大利亚)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 移动电话和固定电话 118小时 添加到咨询列表 AUS_ASR002 Appen Global 有定稿的录音 英语 澳大利亚 混合 1,000 1 75,000 19 8 alaw 完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个语料提供者录制75个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
语料包含了有定稿的录音和自由发挥的录音,其中每个稿子包含了5条自由发挥的录音
E
176
英语(爱尔兰)发音词典
文本 ASR, TTS, 语言建模 N/A 12,000个单词 添加到咨询列表 eng_IRL_PHON Appen Global 发音词典 英语 爱尔兰 N/A N/A N/A N/A 12,000 N/A text Y
177
英语(纽西兰)发音词典
文本 ASR, TTS, 语言建模 N/A 50,000个单词 添加到咨询列表 eng_NZL_PHON Appen Global 发音词典 英语 纽西兰 N/A N/A N/A N/A 50,000 N/A text Y
180
英语(美国)发音词典
文本 ASR, TTS, 语言建模 N/A 330,000个单词 添加到咨询列表 eng_USA_PHON Appen Global 发音词典 英语 美国 N/A N/A N/A N/A 3,30,000 N/A text Y
107
英语(美国)对话式的智能手机录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话 1,000小时 添加到咨询列表 USE_ASR003 Appen Global 对话录音 英语 美国 低背景噪音 2,000 1 5,00,000 52,586 16 wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
对话涵盖了各种主题,包括学习/专业/工作,家乡,生活安排,天气和季节,准时,电视节目/电影
Y
93
英语(美国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 53小时 添加到咨询列表 Speecon English (USA) database Nuance 有定稿的录音 英语 美国 混合(办公室/娱乐场所/车内/公共场所) 600(550个成年语料提供者及50个儿童语料提供者) 4 1,70,000 可根据要求提供 16 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年语料提供者录制290个语料,每个儿童语料提供者录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童语料提供者还需要提供关于玩具,手机的指令以及通用指令,成年语料提供者还需要提供应用词汇,以及自由发挥的语料
Y
106
英语(美国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 62小时 添加到咨询列表 USE_ASR001 Appen Global 有定稿的录音 英语 美国 低背景噪音(录音棚) 200 2 80,000 18,318 48 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
每个语料提供者录制400个语料,语料包括数字,自然数,人名,城市名,电话号码,通用指令和特定指令,语音丰富的句子和单词
Y
181
英语(美国)词性词典
文本 ASR, TTS, 语言建模 N/A 263,000个单词 添加到咨询列表 eng_USA_POS Appen Global 词性词典 英语 美国 N/A N/A N/A N/A 2,63,000 N/A text Y
99
英语(英国)
音频 TTS 头戴式麦克风 11小时 添加到咨询列表 TC-STAR female baseline voice Laura Nuance 有定稿的录音 英语 英国 低背景噪音(录音棚) 1 1 可根据要求提供 可根据要求提供 96 可根据要求提供 数据集包括人工正字法转录的转录文件,自动分割的音素,自动生成的音高标记(已手动检查了一定比例的语音段和音高标记)
数据集附有一个包含词性,词元和音标的发音词典
Y
100
英语(英国)
音频 TTS 头戴式麦克风 7小时 添加到咨询列表 TC-STAR male baseline voice Ian Nuance 有定稿的录音 英语 英国 低背景噪音(录音棚) 1 1 可根据要求提供 可根据要求提供 96 可根据要求提供 数据集包括人工正字法转录的转录文件,自动分割的音素,自动生成的音高标记(已手动检查了一定比例的语音段和音高标记)
数据集附有一个包含词性,词元和音标的发音词典
Y
178
英语(英国)发音词典
文本 ASR, TTS, 语言建模 N/A 195,000个单词 添加到咨询列表 eng_GBR_PHON Appen Global 发音词典 英语 英国 N/A N/A N/A N/A 1,95,000 N/A text Y
259
英语(英国)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 50小时 添加到咨询列表 UKE_ASR001B Appen Global 对话录音 英语 英国 低背景噪音 1,150 2 可根据要求提供 13,192 8 wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
Y
104
英语(英国)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 150小时 添加到咨询列表 UKE_ASR001 Appen Global 对话录音 英语 英国 低背景噪音 1,150 2 2,98,562 24,193 8 wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
Y
179
英语(英国)词性词典
文本 ASR, TTS, 语言建模 N/A 155,000个单词 添加到咨询列表 eng_GBR_POS Appen Global 词性词典 英语 英国 N/A N/A N/A N/A 1,55,000 N/A text Y
168
英语(阿拉伯联合酋长国)发音词典
文本 ASR, TTS, 语言建模 N/A 5,000个单词 添加到咨询列表 eng_ARE_PHON Appen Global 发音词典 英语 阿拉伯联合酋长国 N/A N/A N/A N/A 5,000 N/A text Y
67
英语(阿拉伯联合酋长国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 移动电话和固定电话 33小时 添加到咨询列表 OrienTel English as spoken in the United Arab Emirates Nuance 有定稿的录音 英语 阿拉伯联合酋长国 低背景噪音 500 1 25,500 可根据要求提供 8 alaw 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制51个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令
Y
173
英语(香港)发音词典
文本 ASR, TTS, 语言建模 N/A 18,000个单词 添加到咨询列表 eng_HKG_PHON Appen Global 发音词典 英语 香港 N/A N/A N/A N/A 18,000 N/A text Y
33
荷兰语(比利时)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 麦克风 80小时 添加到咨询列表 Flemish SpeechDat(II) FDB-1000 (FIXED1FL) Nuance 有定稿的录音 荷兰语 比利时 低背景噪音 1,000 1 52,000 可根据要求提供 8 alaw 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制52个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令
H
91
荷兰语(比利时)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 47小时 添加到咨询列表 Speecon Dutch from Belgium Nuance 有定稿的录音 荷兰语 比利时 混合(办公室/娱乐场所/车内/公共场所) 600(550个成年语料提供者及50个儿童语料提供者) 4 1,70,000 可根据要求提供 16 alaw 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年语料提供者录制290个语料,每个儿童语料提供者录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童语料提供者还需要提供关于玩具,手机的指令以及通用指令,成年语料提供者还需要提供应用词汇,以及自由发挥的语料
H
19
荷兰语(荷兰和比利时)有定稿的车内录音语料库
音频 ASR, 虚拟助手, 车载HMI及娱乐设备 麦克风和移动电话 27小时 添加到咨询列表 Dutch and Flemish SpeechDat-Car Nuance 有定稿的录音 荷兰语 荷兰-比利时 混合(车内) 302 5 15,100 可根据要求提供 16和8 alaw 数据集已完全转录,并附有发音词典和验证报告
每个成年语料提供者录制125个语料,语料包括数字,自然数,字母串,个人、地点和企业名称(一些是自由发挥的),通用指令和特定指令,语音丰富的句子和单词及自由发挥的语料
H
167
荷兰语(荷兰)发音词典
文本 ASR, TTS, 语言建模 N/A 45,000个单词 添加到咨询列表 nld_NLD_PHON Appen Global 发音词典 荷兰语 荷兰 N/A N/A N/A N/A 45,000 N/A text H
66
荷兰语(荷兰)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 36小时 添加到咨询列表 NLD_ASR001 Appen Global 对话录音 荷兰语 荷兰 低背景噪音 200 2 可根据要求提供 14,964 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
H
92
荷兰语(荷兰)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 68小时 添加到咨询列表 Speecon Dutch from the Netherlands Nuance 有定稿的录音 荷兰语 荷兰 混合(办公室/娱乐场所/车内/公共场所) 600(550个成年语料提供者及50个儿童语料提供者) 4 1,70,000 可根据要求提供 16 alaw 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年语料提供者录制290个语料,每个儿童语料提供者录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童语料提供者还需要提供关于玩具,手机的指令以及通用指令,成年语料提供者还需要提供应用词汇,以及自由发挥的语料
H
224
葡萄牙语(巴西)发音词典
文本 ASR, TTS, 语言建模 N/A 102,000个单词 添加到咨询列表 por_BRA_PHON Appen Global 发音词典 葡萄牙语 巴西 N/A N/A N/A N/A 1,02,000 N/A text P
78
葡萄牙语(巴西)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 33小时 添加到咨询列表 PTB_ASR002 Appen Global 对话录音 葡萄牙语 巴西 低背景噪音 200 2 可根据要求提供 11,287 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
P
225
葡萄牙语(巴西)词性词典
文本 ASR, TTS, 语言建模 N/A 100,000个单词 添加到咨询列表 por_BRA_POS Appen Global 词性词典 葡萄牙语 巴西 N/A N/A N/A N/A 1,00,000 N/A text P
77
葡萄牙语(巴西)麦克风录音数据库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 26小时 添加到咨询列表 PTB_ASR001 Global Phone 有定稿的录音 葡萄牙语 巴西 低背景噪音(家庭/办公室) 102 1 10,417 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
P
226
葡萄牙语(葡萄牙)发音词典
文本 ASR, TTS, 语言建模 N/A 112,000个单词 添加到咨询列表 por_PRT_PHON Appen Global 发音词典 葡萄牙语 葡萄牙 N/A N/A N/A N/A 1,12,000 N/A text P
79
葡萄牙语(葡萄牙)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 36小时 添加到咨询列表 PTP_ASR001 Appen Global 对话录音 葡萄牙语 葡萄牙 低背景噪音 200 2 可根据要求提供 16,339 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
P
227
葡萄牙语(葡萄牙)词性词典
文本 ASR, TTS, 语言建模 N/A 100,000个单词 添加到咨询列表 por_PRT_POS Appen Global 词性词典 葡萄牙语 葡萄牙 N/A N/A N/A N/A 1,00,000 N/A text P
217
蒙古语(蒙古)发音词典
文本 ASR, TTS, 语言建模 N/A 30,000个单词 添加到咨询列表 mon_MNG_PHON Appen Global 发音词典 蒙古语 蒙古 N/A N/A N/A N/A 30,000 N/A text M
237
西班牙文(哥伦比亚)发音词典
文本 ASR, TTS, 语言建模 N/A 15,000个单词 添加到咨询列表 spa_COL_PHON Appen Global 发音词典 西班牙语 哥伦比亚 N/A N/A N/A N/A 15,000 N/A text X
240
西班牙文(委内瑞拉)发音词典
文本 ASR, TTS, 语言建模 N/A 15,000个单词 添加到咨询列表 spa_VEN_PHON Appen Global 发音词典 西班牙语 委内瑞拉 N/A N/A N/A N/A 15,000 N/A text X
236
西班牙文(智利)发音词典
文本 ASR, TTS, 语言建模 N/A 15,000个单词 添加到咨询列表 spa_CHL_PHON Appen Global 发音词典 西班牙语 智利 N/A N/A N/A N/A 15,000 N/A text X
235
西班牙文(西班牙)发音词典
文本 ASR, TTS, 语言建模 N/A 100,000个单词 添加到咨询列表 spa_ESP_PHON Appen Global 发音词典 西班牙语 西班牙 N/A N/A N/A N/A 1,00,000 N/A text X
117
西班牙文(西班牙)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人 移动电话 540小时 添加到咨询列表 ESP_ASR002_CN Appen China 有定稿的录音 西班牙语 西班牙 低背景噪音(家庭/办公室) 347 1 2,58,395 1,34,939 16 wav 数据集已完全转录 X
28
西班牙文(西班牙)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 39小时 添加到咨询列表 ESP_ASR001 Appen Global 有定稿的录音 西班牙语 西班牙 混合 200 4 40,000 6,367 22 alaw 完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个语料提供者录制200个语料,语料包括100个命令和特定指令,100个语音丰富的句子
X
30
西班牙文(西班牙)有定稿的麦克风录音语料库
音频 TTS 麦克风 1小时 添加到咨询列表 ESP_TTS001 Appen Global 有定稿的录音 西班牙语 西班牙 低背景噪音(录音棚) 1 1 1,787 3,614 22 alaw 数据集随附一个发音词典,其中包含该数据集中所说的所有单词
每个演讲者提供1787条语料,包括语音丰富的句子
X
97
西班牙文(西班牙)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 46小时 添加到咨询列表 Speecon Spanish Database Nuance 有定稿的录音 西班牙语 西班牙 混合(办公室/娱乐场所/车内/公共场所) 600(550个成年语料提供者及50个儿童语料提供者) 4 1,70,000 可根据要求提供 16 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年语料提供者录制290个语料,每个儿童语料提供者录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童语料提供者还需要提供关于玩具,手机的指令以及通用指令,成年语料提供者还需要提供应用词汇,以及自由发挥的语料
X
27
西班牙语(拉丁美洲-智利和哥伦比亚)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 22小时 添加到咨询列表 ESL_ASR002 Appen Global 对话录音 西班牙语 智利-哥伦比亚 混合 84 2 可根据要求提供 可根据要求提供 8 wav 数据集已完全转录并加了时间戳
银行和电信领域的呼叫中心风格的对话(由64个客户和14个代理商提供的),主要使用移动电话
X
26
西班牙语(拉丁美洲)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 17小时 添加到咨询列表 ESL_ASR001 Global Phone 有定稿的录音 西班牙语 哥斯达黎加 低背景噪音(家庭/办公室) 100 1 6,898 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
X
238
西班牙语(秘鲁)发音词典
文本 ASR, TTS, 语言建模 N/A 15,000个单词 添加到咨询列表 spa_PER_PHON Appen Global 发音词典 西班牙语 秘鲁 N/A N/A N/A N/A 15,000 N/A text X
239
西班牙语(美国)发音词典
文本 ASR, TTS, 语言建模 N/A 90,000个单词 添加到咨询列表 spa_USA_PHON Appen Global 发音词典 西班牙语 美国 N/A N/A N/A N/A 90,000 N/A text X
234
西班牙语(阿根廷)发音词典
文本 ASR, TTS, 语言建模 N/A 15,000个单词 添加到咨询列表 spa_ARG_PHON Appen Global 发音词典 西班牙语 阿根廷 N/A N/A N/A N/A 15,000 N/A text X
44
豪萨语有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 20小时 添加到咨询列表 HAU_ASR001 Global Phone 有定稿的录音 豪萨语 多国 低背景噪音(家庭/办公室) 103 1 7,895 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
H
195
豪萨(尼日利亚)发音词典
文本 ASR, TTS, 语言建模 N/A 11,000个单词 添加到咨询列表 hau_NGA_PHON Appen Global 发音词典 豪萨语 奈及利亚 N/A N/A N/A N/A 11,000 N/A text H
45
豪萨(尼日利亚)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话 33小时 添加到咨询列表 HAU_ASR002 Appen Global 对话录音 豪萨语 奈及利亚 低背景噪音 200 2 可根据要求提供 7,949 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
H
255
越南(Vietnam)发音词典
文本 ASR, TTS, 语言建模 N/A 8,000个单词 添加到咨询列表 vie_VNM_PHON Appen Global 发音词典 越南语 越南 N/A N/A N/A N/A 8,000 N/A text Y
108
越南(Vietnam)麦克风录音数据库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 47小时 添加到咨询列表 VIE_ASR001 Global Phone 有定稿的录音 越南语 越南 低背景噪音(家庭/办公室) 129 1 18,842 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
Y
129
身体移动视频库
视频 健身应用, 行为识别, 手势识别 移动电话 2000个视频 添加到咨询列表 VED_HUMAN_BODY_CN Appen China 人体 N/A 中国 不同背景及光线 1000 NA NA NA NA mp4 每个视频片段长约10至20秒 Z
165
达里语(阿富汗)发音词典
文本 ASR, TTS, 语言建模 N/A 30,000个单词 添加到咨询列表 prs_AFG_PHON Appen Global 发音词典 达里语 阿富汗 N/A N/A N/A N/A 30,000 N/A text D
14
达里语(阿富汗)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 40小时 添加到咨询列表 DAR_ASR001 Appen Global 对话录音 达里语 阿富汗 低背景噪音 500 2 可根据要求提供 11,168 8 alaw 数据集已完全转录并加上时间戳
数据集主要是语音,不包括音乐或广告
D
15
达里语(阿富汗)广播录音数据库
音频 ASR, 自动字幕, 关键字检索 麦克风 51小时 添加到咨询列表 DAR_BRC001 Appen Global 广播录音 达里语 阿富汗 低背景噪音(录音棚) N/A 1 可根据要求提供 可根据要求提供 N/A wav 数据集已完全转录并加上时间戳
数据集主要是语音,不包括音乐或广告
数据类型包括:脱口秀,访谈,新闻广播(不包括主持人阅读的新闻)
D
139
阿姆哈拉语(埃塞俄比亚)发音词典
文本 ASR, TTS, 语言建模 N/A 45,000个单词 添加到咨询列表 amh_ETH_PHON Appen Global 发音词典 阿姆哈拉语 埃塞俄比亚 N/A N/A N/A N/A 45,000 N/A text A
138
阿尔巴尼亚语(阿尔巴尼亚)发音词典
文本 ASR, TTS, 语言建模 N/A 12,000个单词 添加到咨询列表 sqi_ALB_PHON Appen Global 发音词典 阿尔巴尼亚语 阿尔巴尼亚 N/A N/A N/A N/A 12,000 N/A text A
130
阿拉伯语NER语料库
文本 NER, 内容分类, 搜索引擎 N/A 20,774个句子 添加到咨询列表 ARB_NER001 Appen Global NER 阿拉伯语 N/A N/A N/A N/A 20,774 可根据要求提供 N/A text A
147
阿拉伯语发音词典
文本 ASR, TTS, 语言建模 N/A 40,000个单词 添加到咨询列表 arb_N/A_PHON Appen Global 发音词典 阿拉伯语 N/A N/A N/A N/A N/A 40,000 N/A text A
141
阿拉伯语(伊拉克)发音词典
文本 ASR, TTS, 语言建模 N/A 15,000个单词 添加到咨询列表 ara_IRQ_PHON Appen Global 发音词典 阿拉伯语 伊拉克 N/A N/A N/A N/A 15,000 N/A text 人名 A
142
阿拉伯语(伊拉克)词性词典
文本 ASR, TTS, 语言建模 N/A 13,000个单词 添加到咨询列表 ara_IRQ_POS Appen Global 词性词典 阿拉伯语 伊拉克 N/A N/A N/A N/A 13,000 N/A text A
143
阿拉伯语(利比亚)发音词典
文本 ASR, TTS, 语言建模 N/A 48,000个单词 添加到咨询列表 ara_LBY_PHON Appen Global 发音词典 阿拉伯语 利比亚 N/A N/A N/A N/A 48,000 N/A text A
140
阿拉伯语(埃及)发音词典
文本 ASR, TTS, 语言建模 N/A 40,000个单词 添加到咨询列表 ara_EGY_PHON Appen Global 发音词典 阿拉伯语 埃及 N/A N/A N/A N/A 40,000 N/A text A
114
阿拉伯语(埃及)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人 移动电话 352小时 添加到咨询列表 ARE_ASR001_CN Appen China 有定稿的录音 阿拉伯语 埃及 低背景噪音(家庭/办公室) 627 1 1,28,908 2,07,576 16 wav 数据集已完全转录 A
146
阿拉伯语(摩洛哥)发音词典
文本 ASR, TTS, 语言建模 N/A 60,000个单词 添加到咨询列表 ara_MAR_PHON Appen Global 发音词典 阿拉伯语 摩洛哥 N/A N/A N/A N/A 60,000 N/A text A
113
阿拉伯语(摩洛哥)对话式的电话录音翻译
文本 MT, 聊天机器人, 对话式AI N/A 80,544语句 添加到咨询列表 ARY_MT001 Appen Global 对话翻译 阿拉伯语 摩洛哥 N/A 180 N/A 80,430 23,844 N/A text 相应的音频,转录文本,完全可逆的罗马化的转录文本及发音词典见数据集ARY_ASR001和ARY_ASRMT001 A
112
阿拉伯语(摩洛哥)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 33小时 添加到咨询列表 ARY_ASR001 Appen Global 对话录音 阿拉伯语 摩洛哥 低背景噪音 180 2 80,544 23,836 8 alaw 每个语料提供者参与了1至4个对话,每个语料提供者由一个记录在人口统计文件中的唯一的4位数的演讲者ID来识别
此转录文件有原始版本和完全可逆的罗马化版本,并附带发音词典
产品转录的英文翻译见数据集ARY_MT001和ARY_ASRMT001
A
115
阿拉伯语(沙特阿拉伯)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人 移动电话 322小时 添加到咨询列表 ARS_ASR001_CN Appen China 有定稿的录音 阿拉伯语 沙特阿拉伯 低背景噪音(家庭/办公室) 227 1 1,04,574 1,56,282 16 wav 数据集已完全转录 A
65
阿拉伯语(现代标准阿拉伯语)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 12小时 添加到咨询列表 MSA_ASR001 Global Phone 有定稿的录音 阿拉伯语 突尼斯 低背景噪音(家庭/办公室) 78 1 4,908 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
A
149
阿拉伯语(苏丹)发音词典
文本 ASR, TTS, 语言建模 N/A 17,000个单词 添加到咨询列表 ara_SDN_PHON Appen Global 发音词典 阿拉伯语 苏丹 N/A N/A N/A N/A 17,000 N/A text A
20
阿拉伯语(阿尔及利亚东部)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 29小时 添加到咨询列表 EAR_ASR001 Appen Global 对话录音 阿拉伯语 阿尔及利亚 低背景噪音(家庭/办公室) 496 2 可根据要求提供 11,327 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
在大多数通话中,对话双方(呼入者和呼出者)的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话内容被收集并转录了
A
144
阿拉伯语(阿尔及利亚)发音词典
文本 ASR, TTS, 语言建模 N/A 11,000个单词 添加到咨询列表 ara_DZA_PHON Appen Global 发音词典 阿拉伯语 阿尔及利亚 N/A N/A N/A N/A 11,000 N/A text A
9
阿拉伯语(阿拉伯联合酋长国/沙特阿拉伯)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 86小时 添加到咨询列表 CGA_ASR001 Appen Global 有定稿的录音 阿拉伯语 阿拉伯联合酋长国-沙特阿拉伯 低背景噪音(家庭/办公室) 150 4 42,000 19,245 16 alaw 语音文件内容已完全转录,精确到单词
所有录音均使用了衍生于SpeechDATmodel的方法进行标记
所有转录文件已被加注元音标识
每个语料提供者录制280个语料,语料包括15个人的名字和姓氏(共计30个),10个分开朗读的数字(0-10),随机生成的数字序列(每个序列包含8个数字),200个语音平衡的句子,30个语音平衡单词串(每个单词串包含10个单词)
A
148
阿拉伯语(阿拉伯联合酋长国)发音词典
文本 ASR, TTS, 语言建模 N/A 75,000个单词 添加到咨询列表 ara_ARE_PHON Appen Global 发音词典 阿拉伯语 阿拉伯联合酋长国 N/A N/A N/A N/A 75,000 N/A text A
122
阿拉伯语(阿拉伯联合酋长国)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人 移动电话 170小时 添加到咨询列表 ARU_ASR001_CN Appen China 有定稿的录音 阿拉伯语 阿拉伯联合酋长国 低背景噪音(家庭/办公室) 133 1 42,352 85,775 16 wav 数据集已完全转录 A
70
阿拉伯语(阿拉伯联合酋长国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 移动电话和固定电话 48小时 添加到咨询列表 OrienTel United Arab Emirates MCA (Modern Colloquial Arabic) Nuance 有定稿的录音 阿拉伯语 阿拉伯联合酋长国 低背景噪音 880 1 43,000 可根据要求提供 8 alaw 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制49个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令
A
71
阿拉伯语(阿拉伯联合酋长国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手 移动电话和固定电话 31小时 添加到咨询列表 OrienTel United Arab Emirates MSA (Modern Standard Arabic) Nuance 有定稿的录音 阿拉伯语 阿拉伯联合酋长国 低背景噪音 500 1 24,500 可根据要求提供 8 alaw 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制49个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令
A
150
阿萨姆语(印度)发音词典
文本 ASR, TTS, 语言建模 N/A 40,000个单词 添加到咨询列表 asm_IND_PHON Appen Global 发音词典 阿萨姆语 印度 N/A N/A N/A N/A 40,000 N/A text A
207
韩文(韩国)发音词典
文本 ASR, TTS, 语言建模 N/A 100,000个单词 添加到咨询列表 kor_KOR_PHON Appen Global 发音词典 韩语 韩国 N/A N/A N/A N/A 1,00,000 N/A text H
59
韩文(韩国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人 麦克风 20小时 添加到咨询列表 KOR_ASR001 Global Phone 有定稿的录音 韩语 韩国 低背景噪音(家庭/办公室) 100 1 8,107 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
H
208
韩文(韩国)词性词典
文本 ASR, TTS, 语言建模 N/A 100,000个单词 添加到咨询列表 kor_KOR_POS Appen Global 词性词典 韩语 韩国 N/A N/A N/A N/A 1,00,000 N/A text H
132
韩语NER语料库
文本 NER, 内容分类, 搜索引擎 N/A 25,830个句子 添加到咨询列表 KOR_NER001 Appen Global NER 韩语 韩国 N/A N/A N/A 25,830 可根据要求提供 N/A text H
216
马拉地语(印度)发音词典
文本 ASR, TTS, 语言建模 N/A 30,000个单词 添加到咨询列表 mar_IND_PHON Appen Global 发音词典 马拉地语 印度 N/A N/A N/A N/A 30,000 N/A text M
64
马拉地语(印度)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 15小时 添加到咨询列表 MAR_ASR001 Appen Global 对话录音 马拉地语 印度 混合 180 2 可根据要求提供 11,908 8 alaw 数据集中大约29%的会话被转录并加盖了时间戳,可以提供完整的转录文本
数据集附带一个包含所有转录词的发音词典
M
110
马拉地语(印度)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析 移动电话和固定电话 52小时 添加到咨询列表 MAR_ASR001A Appen Global 对话录音 马拉地语 印度 混合 1,000 2 可根据要求提供 11,908 8 alaw 数据集的部分会话被转录并加盖了时间戳,可以提供完整的转录文本
数据集附带一个包含所有转录词的发音词典
M
212
马拉雅拉姆语(印度)发音词典
文本 ASR, TTS, 语言建模 N/A 4,000个单词 添加到咨询列表 mal_IND_PHON Appen Global 发音词典 玛拉雅拉姆语 印度 N/A N/A N/A N/A 4,000 N/A text M
213
马来西亚(马来西亚)发音词典
文本 ASR, TTS, 语言建模 N/A 10,000个单词 添加到咨询列表 msa_MYS_PHON Appen Global 发音词典 马来语 马来西亚 N/A N/A N/A N/A 10,000 N/A text M
123
高棉语(柬埔寨)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人 移动电话 90小时 添加到咨询列表 KHM_ASR001_CN Appen China 有定稿的录音 高棉语 柬埔寨 低背景噪音(家庭/办公室) 94 1 24,618 52,157 16 wav 数据集已完全转录 G
125
黑人(东非)脸部照片库
图像 面部识别 照相机 13500张图片 添加到咨询列表 IMG_FACE_KEN_CN Appen China 人脸 N/A 肯尼亚 不同背景及光线 100 NA NA NA NA jpg K





应用场景


无论您是在开发语音合成系统、语音识别系统还是其他依赖自然语言的解决方案,高质量的授权语音和语言数据集都能让您更快地进入市场,触达更多的潜在客户群