成品数据集


我们的经授权许可的成品数据集将快速启动您的AI项目

查看数据集产品目录
观看数据集视频介绍


Image

数据产品目录



澳鹏提供种类丰富的成品数据库,我们的数据产品目录包括250多个可授权的数据集,涵盖80多种语言及方言,适用于各种常见的AI应用场景,例如:TTS、ASR等(参考下面目录表的筛选功能查看更多应用场景)。我们也在不断更新数据库中,2020年将推出30多个全新数据集,联系我们为您一同构建适用于您的项目的数据产品。



Image

快速部署



直接获取数据库产品快速为您部署AI与机器学习项目


Image

低成本高效益



直接获取经授权的成品数据库比您定制数据采集服务更具成本效益。


Image

专家团队



您将拥有一支在数据采集领域耕耘20多年的专家团队支持


Image

支持所有数据类型



图像,视频,语音,音频,文本

Image

大规模



提供大量、高品质的数据高效地训练您的机器模型

Image

高质量



提高您的机器模型质量并减少数据偏见






数据集名称产品类型常见应用场景录音设备单元
数据库名称产品类型常见使用案例录音设备单元
88
Sorani(库尔德语)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话5小时 添加到咨询列表SOR_ASR001Appen Global对话录音库尔德语伊朗低背景噪音1702可根据要求提供7,9248alaw或wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
对于很大比例的电话录音,只有一半的对话被收集和转录
K
163
丹麦(丹麦)发音词典
文本 ASR, TTS, 语言建模N/A107,000个单词 添加到咨询列表dan_DNK_PHONAppen Global发音词典丹麦语丹麦N/AN/AN/AN/A1,07,000N/AtextD
90
丹麦(丹麦)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风53小时 添加到咨询列表Speecon DanishNuance有定稿的录音丹麦语丹麦混合(办公室/娱乐场所/车内/公共场所)600(550个成年语料提供者及50个儿童语料提供者)41,70,000可根据要求提供16alaw数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年语料提供者录制290个语料,每个儿童语料提供者录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童语料提供者还需要提供关于玩具,手机的指令以及通用指令,成年语料提供者还需要提供应用词汇,以及自由发挥的语料
D
164
丹麦(丹麦)词性词典
文本 ASR, TTS, 语言建模N/A100,000个单词 添加到咨询列表dan_DNK_POSAppen Global词性词典丹麦语丹麦N/AN/AN/AN/A1,00,000N/AtextD
252
乌克兰语(乌克兰)发音词典
文本 ASR, TTS, 语言建模N/A5,000个单词 添加到咨询列表ukr_UKR_PHONAppen Global发音词典乌克兰语乌克兰N/AN/AN/AN/A5,000N/AtextW
137
乌尔都语NER语料库
文本 NER, 内容分类, 搜索引擎N/A20,634个句子 添加到咨询列表URD_NER001Appen GlobalNER乌尔都语巴基斯坦N/AN/AN/A20,634可根据要求提供N/AtextW
105
乌尔都语(印度/巴基斯坦)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话47小时 添加到咨询列表URD_ASR001Appen Global对话录音乌尔都语印度-巴基斯坦混合1,0002可根据要求提供10,8718wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
W
253
乌尔都语(巴基斯坦)发音词典
文本 ASR, TTS, 语言建模N/A40,000个单词 添加到咨询列表urd_PAK_PHONAppen Global发音词典乌尔都语巴基斯坦N/AN/AN/AN/A40,000N/AtextW
254
乌尔都语(巴基斯坦)词性词典
文本 ASR, TTS, 语言建模N/A12,000个单词 添加到咨询列表urd_PAK_POSAppen Global词性词典乌尔都语巴基斯坦N/AN/AN/AN/A12,000N/AtextW
199
伊博语(尼日利亚)发音词典
文本 ASR, TTS, 语言建模N/A30,000个单词 添加到咨询列表ibo_NGA_PHONAppen Global发音词典伊博语奈及利亚N/AN/AN/AN/A30,000N/AtextY
182
伊朗波斯语(伊朗)发音词典
文本 ASR, TTS, 语言建模N/A80,000个单词 添加到咨询列表pes_IRN_PHONAppen Global发音词典波斯语伊朗N/AN/AN/AN/A80,000N/AtextY
183
伊朗波斯语(伊朗)词性词典
文本 ASR, TTS, 语言建模N/A1,400,000个单词 添加到咨询列表pes_IRN_POSAppen Global词性词典波斯语伊朗N/AN/AN/AN/A14,00,000N/AtextY
229
俄罗斯(Russia)发音词典
文本 ASR, TTS, 语言建模N/A115,000个单词 添加到咨询列表rus_RUS_PHONAppen Global发音词典俄语俄国N/AN/AN/AN/A1,15,000N/AtextE
82
俄罗斯(Russia)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话37小时 添加到咨询列表RUS_ASR001Appen Global对话录音俄语俄国低背景噪音2002可根据要求提供28,2848alaw或wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
E
84
俄罗斯(Russia)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话180小时 添加到咨询列表Russian SpeechDat(E) DatabaseNuance有定稿的录音俄语俄国低背景噪音2,50011,12,000可根据要求提供8alaw数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制45个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
E
83
俄罗斯(Russia)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风31小时 添加到咨询列表RUS_ASR002Global Phone有定稿的录音俄语俄国低背景噪音(家庭/办公室)115112,205可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
E
96
俄罗斯(Russia)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风46小时 添加到咨询列表Speecon Russian DatabaseNuance有定稿的录音俄语俄国混合(办公室/娱乐场所/车内/公共场所)600(550个成年语料提供者及50个儿童语料提供者)41,70,000可根据要求提供16可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年语料提供者录制290个语料,每个儿童语料提供者录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童语料提供者还需要提供关于玩具,手机的指令以及通用指令,成年语料提供者还需要提供应用词汇,以及自由发挥的语料
E
230
俄罗斯(Russia)词性词典
文本 ASR, TTS, 语言建模N/A100,000个单词 添加到咨询列表rus_RUS_POSAppen Global词性词典俄语俄国N/AN/AN/AN/A1,00,000N/AtextE
133
俄语NER语料库
文本 NER, 内容分类, 搜索引擎N/A29,888个句子 添加到咨询列表RUS_NER001Appen GlobalNER俄语俄国N/AN/AN/A29,888可根据要求提供N/AtextE
155
保加利亚语(保加利亚)发音词典
文本 ASR, TTS, 语言建模N/A55,000个单词 添加到咨询列表bul_BGR_PHONAppen Global发音词典保加利亚语保加利亚N/AN/AN/AN/A55,000N/AtextB
7
保加利亚语(保加利亚)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话38小时 添加到咨询列表BUL_ASR001Appen Global对话录音保加利亚语保加利亚低背景噪音(家庭/办公室)2172可根据要求提供22,3428alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
B
111
保加利亚语(保加利亚)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风22小时 添加到咨询列表BUL_ASR002Global Phone有定稿的录音保加利亚语保加利亚低背景噪音(家庭/办公室)7718,674可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
B
161
克罗地亚语(克罗地亚)发音词典
文本 ASR, TTS, 语言建模N/A20,000个单词 添加到咨询列表hrv_HRV_PHONAppen Global发音词典克罗地亚语克罗地亚N/AN/AN/AN/A20,000N/AtextK
10
克罗地亚语(克罗地亚)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话39小时 添加到咨询列表CRO_ASR001Appen Global对话录音克罗地亚语克罗地亚低背景噪音(家庭/办公室)2002可根据要求提供23,9198alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
K
116
克罗地亚语(克罗地亚)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人移动电话263小时 添加到咨询列表CRO_ASR003_CNAppen China有定稿的录音克罗地亚语克罗地亚低背景噪音(家庭/办公室)243173,4671,36,14016wav数据集已完全转录K
11
克罗地亚语(克罗地亚)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风11小时 添加到咨询列表CRO_ASR002Global Phone有定稿的录音克罗地亚语克罗地亚低背景噪音(家庭/办公室)9414,499可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
K
159
加泰罗尼亚语(西班牙)发音词典
文本 ASR, TTS, 语言建模N/A10,000个单词 添加到咨询列表cat_ESP_PHONAppen Global发音词典加泰罗尼亚语西班牙N/AN/AN/AN/A10,000N/AtextJ
198
匈牙利语(匈牙利)发音词典
文本 ASR, TTS, 语言建模N/A500个单词 添加到咨询列表hun_HUN_PHONAppen Global发音词典匈牙利语匈牙利N/AN/AN/AN/A500N/AtextX
119
匈牙利语(匈牙利)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人移动电话286小时 添加到咨询列表HUN_ASR001_CNAppen China有定稿的录音匈牙利语匈牙利低背景噪音(家庭/办公室)254194,0312,01,92116wav数据集已完全转录X
49
匈牙利语(匈牙利)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话65小时 添加到咨询列表Hungarian SpeechDat(E)Nuance有定稿的录音匈牙利语匈牙利低背景噪音1,000148,000可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
X
205
卡纳达语(印度)发音词典
文本 ASR, TTS, 语言建模N/A35,000个单词 添加到咨询列表kan_IND_PHONAppen Global发音词典坎那达语印度N/AN/AN/AN/A35,000N/AtextK
58
卡纳达语(印度)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话15小时 添加到咨询列表KAN_ASR001Appen Global对话录音坎那达语印度混合1782可根据要求提供15,6608alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
K
109
卡纳达语(印度)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话57小时 添加到咨询列表KAN_ASR001AAppen Global对话录音坎那达语印度混合1,0002可根据要求提供15,6608alaw数据集中大约25%的会话被转录并加盖了时间戳,可以提供完整的转录文本
数据库附带一个包含所有转录词的发音词典
K
166
卢奥语(肯尼亚)发音词典
文本 ASR, TTS, 语言建模N/A20,000个单词 添加到咨询列表luo_KEN_PHONAppen Global发音词典卢奥语肯尼亚N/AN/AN/AN/A20,000N/AtextL
197
印地语(印度)发音词典
文本 ASR, TTS, 语言建模N/A35,000个单词 添加到咨询列表hin_IND_PHONAppen Global发音词典印地语印度N/AN/AN/AN/A35,000N/AtextY
48
印地语(印度)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话32小时 添加到咨询列表HIN_ASR002Appen Global对话录音印地语印度混合9962可根据要求提供12,2668wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
在大多数的通话中,对话双方的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话被收集并转录了
Y
47
印地语(印度)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话224小时 添加到咨询列表HIN_ASR001Appen Global有定稿的录音印地语印度低背景噪音1,920196,0009,8538alaw完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典[SAMPA]
每个语料提供者录制50个语料,语料包括数字,自然数,个人、地点和企业名称,网址,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
Y
151
印尼文(印度尼西亚)发音词典
文本 ASR, TTS, 语言建模N/A95,000个单词 添加到咨询列表ind_IDN_PHONAppen Global发音词典印度尼西亚语印度尼西亚N/AN/AN/AN/A95,000N/AtextY
152
印尼文(印度尼西亚)词性词典
文本 ASR, TTS, 语言建模N/A10,000个单词 添加到咨询列表ind_IDN_POSAppen Global词性词典印度尼西亚语印度尼西亚N/AN/AN/AN/A10,000N/AtextY
4
印尼语(印度尼西亚)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话31小时 添加到咨询列表BAH_ASR001Appen Global对话录音印度尼西亚语印度尼西亚低背景噪音1,0022可根据要求提供11,4808wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
对于很大比例的电话录音,只有一半的对话被收集和转录
Y
256
吴语(中国)发音词典
文本 ASR, TTS, 语言建模N/A10,000个单词 添加到咨询列表wuu_CHN_PHONAppen Global发音词典吴语中国N/AN/AN/AN/A10,000N/AtextW
206
哈萨克语(哈萨克斯坦)发音词典
文本 ASR, TTS, 语言建模N/A30,000个单词 添加到咨询列表kaz_KAZ_PHONAppen Global发音词典哈萨克语哈萨克斯坦N/AN/AN/AN/A30,000N/AtextH
250
土耳其语(土耳其)发音词典
文本 ASR, TTS, 语言建模N/A255,000个单词 添加到咨询列表tur_TUR_PHONAppen Global发音词典土耳其语土耳其N/AN/AN/AN/A2,55,000N/AtextT
102
土耳其语(土耳其)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话41小时 添加到咨询列表TUR_ASR001Appen Global对话录音土耳其语土耳其低背景噪音2002可根据要求提供32,3868alaw或wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
T
121
土耳其语(土耳其)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人移动电话739小时 添加到咨询列表TUR_ASR003_CNAppen China有定稿的录音土耳其语土耳其低背景噪音(家庭/办公室)66411,85,7062,15,13516wav数据集已完全转录T
69
土耳其语(土耳其)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话和固定电话118小时 添加到咨询列表OrienTel Turkish DatabaseNuance有定稿的录音土耳其语土耳其低背景噪音1,700176,500可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制45个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
T
251
土耳其语(土耳其)词性词典
文本 ASR, TTS, 语言建模N/A257,000个单词 添加到咨询列表tur_TUR_POSAppen Global词性词典土耳其语土耳其N/AN/AN/AN/A2,57,000N/AtextT
103
土耳其语(土耳其)麦克风录音数据库
音频 ASR, 虚拟助手, 聊天机器人麦克风17小时 添加到咨询列表TUR_ASR002Global Phone有定稿的录音土耳其语土耳其低背景噪音(家庭/办公室)10016,950可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
T
245
塔加洛语(菲律宾)发音词典
文本 ASR, TTS, 语言建模N/A30,000个单词 添加到咨询列表tgl_PHL_PHONAppen Global发音词典塔加拉族语菲律宾N/AN/AN/AN/A30,000N/AtextT
231
塞尔维亚语(塞尔维亚)发音词典
文本 ASR, TTS, 语言建模N/A15,000个单词 添加到咨询列表srp_SRB_PHONAppen Global发音词典塞尔维亚语塞尔维亚N/AN/AN/AN/A15,000N/AtextS
244
塞海蒂语(孟加拉国-印度)发音词典
文本 ASR, TTS, 语言建模N/A22,000个单词 添加到咨询列表syl_BGD -IND_PHONAppen Global发音词典塞海蒂语孟加拉国-印度N/AN/AN/AN/A22,000N/AtextS
220
奥里雅语(印度)发音词典
文本 ASR, TTS, 语言建模N/A15,000个单词 添加到咨询列表ori_IND_PHONAppen Global发音词典奥里雅语印度N/AN/AN/AN/A15,000N/AtextA
124
婴幼儿啼哭语料库
音频 婴儿监控器, 安全及其他消费者应用程序移动电话3小时 添加到咨询列表CRY_ASR001Appen China人声N/A中国低背景噪音(家庭/办公室)1001NANA16wav0到3岁婴儿的哭声,每个录音持续2分钟左右Z
154
孟加拉语(印度)发音词典
文本 ASR, TTS, 语言建模N/A29,000个单词 添加到咨询列表ben_IND_PHONAppen Global发音词典孟加拉语印度N/AN/AN/AN/A29,000N/AtextM
6
孟加拉语(孟加拉国)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话47小时 添加到咨询列表BEN_ASR001Appen Global对话录音孟加拉语孟加拉国混合(车内/路边/家庭/办公室)1,0002可根据要求提供17,9228alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
M
160
宿雾语(菲律宾)发音词典
文本 ASR, TTS, 语言建模N/A20,000个单词 添加到咨询列表ceb_PHL_PHONAppen Global发音词典宿雾语菲律宾N/AN/AN/AN/A20,000N/AtextS
153
巴斯克(西班牙)发音词典
文本 ASR, TTS, 语言建模N/A10,000个单词 添加到咨询列表eus_ESP_PHONAppen Global发音词典巴斯克语西班牙N/AN/AN/AN/A10,000N/AtextB
196
希伯来语(以色列)发音词典
文本 ASR, TTS, 语言建模N/A31,000个单词 添加到咨询列表heb_ISR_PHONAppen Global发音词典希伯来语以色列N/AN/AN/AN/A31,000N/AtextX
46
希伯来语(以色列)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话34小时 添加到咨询列表HEB_ASR001Appen Global对话录音希伯来语以色列低背景噪音2002可根据要求提供19,2508alaw或wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
X
191
希腊语(希腊)发音词典
文本 ASR, TTS, 语言建模N/A5,000个单词 添加到咨询列表ell_GRC_PHONAppen Global发音词典希腊语希腊N/AN/AN/AN/A5,000N/AtextX
118
希腊语(希腊)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人移动电话191小时 添加到咨询列表GRE_ASR001_CNAppen China有定稿的录音希腊语希腊低背景噪音(家庭/办公室)287154,11368,27116wav数据集已完全转录X
156
广东话(中国)发音词典
文本 ASR, TTS, 语言建模N/A37,000个单词 添加到咨询列表yue_CHN_PHONAppen Global发音词典广东话 (粤语)中国N/AN/AN/AN/A37,000N/Atext简体G
157
广东话(中国)发音词典
文本 ASR, TTS, 语言建模N/A40,000个单词 添加到咨询列表yue_CHN_PHONAppen Global发音词典广东话 (粤语)中国N/AN/AN/AN/A40,000N/Atext繁体G
158
广东话(中国)词性词典
文本 ASR, TTS, 语言建模N/A10,000个单词 添加到咨询列表yue_HKG_POSAppen Global词性词典广东话 (粤语)中国N/AN/AN/AN/A10,000N/Atext繁体G
209
库尔曼吉(土耳其)发音词典
文本 ASR, TTS, 语言建模N/A60,000个单词 添加到咨询列表kur_TUR_PHONAppen Global发音词典库尔德语土耳其N/AN/AN/AN/A60,000N/AtextK
61
德语(卢森堡)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话33小时 添加到咨询列表Luxembourgish German SpeechDat(II) FDB-500 (FIXED1LG)Nuance有定稿的录音德语卢森堡低背景噪音500126,500可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制53个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
D
68
德语(土耳其)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话和固定电话31小时 添加到咨询列表OrienTel German Spoken by TurkishNuance有定稿的录音德语土耳其低背景噪音300115,600可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制52个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
D
189
德语(德国)发音词典
文本 ASR, TTS, 语言建模N/A146,000个单词 添加到咨询列表deu_DEU_PHONAppen Global发音词典德语德国N/AN/AN/AN/A1,46,000N/AtextD
16
德语(德国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风16小时 添加到咨询列表DEU_ASR001Appen Global有定稿的录音德语德国低背景噪音(录音棚)127212,7006,82616alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
每个语料提供者录制100个语料,语料包括数字,自然数,人名,城市名,电话号码,通用指令和特定指令,语音丰富的句子和单词
D
18
德语(德国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风25小时 添加到咨询列表DEU_ASR003Global Phone有定稿的录音德语德国低背景噪音(家庭/办公室)77110,085可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
D
42
德语(德国)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话31小时 添加到咨询列表German SpeechDat (II) FDB-1000Nuance有定稿的录音德语德国低背景噪音(家庭/办公室)988143,000可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制44个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
D
43
德语(德国)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话268小时 添加到咨询列表German SpeechDat(II) FDB-4000Nuance有定稿的录音德语德国低背景噪音(家庭/办公室)4,00011,60,000可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制40个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
D
190
德语(瑞士)发音词典
文本 ASR, TTS, 语言建模N/A15,000个单词 添加到咨询列表deu_CHE_PHONAppen Global发音词典德语瑞士N/AN/AN/AN/A15,000N/AtextD
94
德语(瑞士)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风53小时 添加到咨询列表Speecon German (Switzerland) databaseNuance有定稿的录音德语瑞士混合(办公室/娱乐场所/车内/公共场所)600(550个成年语料提供者及50个儿童语料提供者)41,70,000可根据要求提供16可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年语料提供者录制290个语料,每个儿童语料提供者录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童语料提供者还需要提供关于玩具,手机的指令以及通用指令,成年语料提供者还需要提供应用词汇,以及自由发挥的语料
D
200
意大利文(意大利)发音词典
文本 ASR, TTS, 语言建模N/A197,000个单词 添加到咨询列表ita_ITA_PHONAppen Global发音词典意大利语意大利N/AN/AN/AN/A1,97,000N/AtextY
52
意大利文(意大利)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话36小时 添加到咨询列表ITA_ASR003Appen Global对话录音意大利语意大利低背景噪音2002可根据要求提供18,9748alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
Y
50
意大利文(意大利)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风44小时 添加到咨询列表ITA_ASR001Appen Global有定稿的录音意大利语意大利混合200440,0007,31622alaw完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个语料提供者录制200个语料,语料包括100个命令和特定指令,100个语音丰富的句子
Y
51
意大利文(意大利)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 车载HMI及娱乐设备麦克风47小时 添加到咨询列表ITA_ASR002Appen Global有定稿的录音意大利语意大利混合(车内)103435,87510,36648alaw完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个语料提供者录制350个语料,语料包括数字,街道名称,通用指令和特定指令,语音丰富的句子和单词
每个语料提供者录制了1到2段样本,第一段在未熄火的停靠车辆中录制,第二段在以每小时60英里(100 公里 / 小时)的速度行驶的车辆中录制
Y
53
意大利文(意大利)有定稿的麦克风录音语料库
音频 TTS麦克风3小时 添加到咨询列表ITA_TTS001Appen Global有定稿的录音意大利语意大利低背景噪音(录音棚)113,300可根据要求提供22alaw数据集随附一个发音词典,其中包含该数据集中所说的所有单词
每个语料提供者录制3300条语料,包括语音丰富的句子
Y
54
意大利文(意大利)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话38小时 添加到咨询列表Italian Fixed Network Speech SpeechDat(M) CorpusNuance有定稿的录音意大利语意大利低背景噪音(家庭/办公室)1,000139,000可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制39个语料,语料包含连续和间隔的数字,自然数,金额,拼写单词,时间和日期短语,是/否问题,常见的应用词汇,在短语中的应用词汇以及语音丰富的句子
Y
55
意大利文(意大利)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话228小时 添加到咨询列表Italian SpeechDat(II) FDB-3000Nuance有定稿的录音意大利语意大利低背景噪音(家庭/办公室)3,04011,34,000可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制44个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
Y
56
意大利文(意大利)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话103小时 添加到咨询列表Italian SpeechDat(II) MDB-250Nuance有定稿的录音意大利语意大利低背景噪音(家庭/办公室)375119,000可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制51个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
Y
89
意大利文(意大利)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话13小时 添加到咨询列表SpeechDat(M) Italian Mobile Network Speech DatabaseNuance有定稿的录音意大利语意大利低背景噪音(家庭/办公室)342113,500可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制40个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
Y
201
意大利文(意大利)词性词典
文本 ASR, TTS, 语言建模N/A147,000个单词 添加到咨询列表ita_ITA_POSAppen Global词性词典意大利语意大利N/AN/AN/AN/A1,47,000N/AtextY
249
托皮辛(巴布亚新几内亚)发音词典
文本 ASR, TTS, 语言建模N/A10,000个单词 添加到咨询列表tpi_PNG_PHONAppen Global发音词典托克皮辛语巴布亚新几内亚N/AN/AN/AN/A10,000N/AtextT
218
挪威语(挪威)发音词典
文本 ASR, TTS, 语言建模N/A115,000个单词 添加到咨询列表nor_NOR_PHONAppen Global发音词典挪威语挪威N/AN/AN/AN/A1,15,000N/AtextN
219
挪威语(挪威)词性词典
文本 ASR, TTS, 语言建模N/A3,000个单词 添加到咨询列表nor_NOR_POSAppen Global词性词典挪威语挪威N/AN/AN/AN/A3,000N/AtextN
162
捷克文(捷克共和国)发音词典
文本 ASR, TTS, 语言建模N/A50,000个单词 添加到咨询列表ces_CZE_PHONAppen Global发音词典捷克语捷克共和国N/AN/AN/AN/A50,000N/AtextJ
13
捷克文(捷克共和国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话93小时 添加到咨询列表Czech SpeechDat(E) DatasetNuance有定稿的录音捷克语捷克共和国低背景噪音1,000152,000可根据要求提供8alaw数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制52个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
J
12
捷克文(捷克共和国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风31小时 添加到咨询列表CZE_ASR001Global Phone有定稿的录音捷克语捷克共和国低背景噪音(家庭/办公室)102112,425可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
J
85
斯洛伐克(Slovakia)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话65小时 添加到咨询列表Slovak SpeechDat(E) DatabaseNuance有定稿的录音斯洛伐克语斯洛伐克低背景噪音1,000148,000可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
S
86
斯洛文尼亚语(Slovenian)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话76小时 添加到咨询列表Slovenian SpeechDat(II) FDB-1000Nuance有定稿的录音斯洛维尼亚语斯洛文尼亚低背景噪音(家庭/办公室)1,000140,000可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制大约40个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
S
241
斯瓦希里语(肯尼亚)发音词典
文本 ASR, TTS, 语言建模N/A66,000个单词 添加到咨询列表swa_KEN_PHONAppen Global发音词典斯瓦西里语肯尼亚N/AN/AN/AN/A66,000N/AtextS
80
旁遮普语(巴基斯坦)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话20小时 添加到咨询列表PAP_ASR001Appen Global对话录音旁遮普语巴基斯坦低背景噪音2052可根据要求提供7,2988alaw数据集已完全转录并加盖了时间戳
数据集附带一个包含所有转录词的发音词典
在71%的对话中,对话双方(呼入者和呼出者)的说话内容都被收集转录了,在剩下的29%的对话中,只有一半的对话被收集并转录了
P
136
日语NER语料库
文本 NER, 内容分类, 搜索引擎N/A20,629个句子 添加到咨询列表JPY_NER001Appen GlobalNER日语日本N/AN/AN/A20,629可根据要求提供N/AtextR
202
日语(日本)发音词典
文本 ASR, TTS, 语言建模N/A262,000个单词 添加到咨询列表jpn_JPN_PHONAppen Global发音词典日语日本N/AN/AN/AN/A2,62,000N/AtextR
57
日语(日本)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风33小时 添加到咨询列表JPN_ASR001Global Phone有定稿的录音日语日本低背景噪音(家庭/办公室)144113,067可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
R
95
日语(日本)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风57小时 添加到咨询列表Speecon JapaneseNuance有定稿的录音日语日本混合(办公室/娱乐场所/车内/公共场所)600(550个成年语料提供者及50个儿童语料提供者)41,70,000可根据要求提供16可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年语料提供者录制290个语料,每个儿童语料提供者录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童语料提供者还需要提供关于玩具,手机的指令以及通用指令,成年语料提供者还需要提供应用词汇,以及自由发挥的语料
R
203
日语(日本)词性词典
文本 ASR, TTS, 语言建模N/A265,000个单词 添加到咨询列表jpn_JPN_POSAppen Global词性词典日语日本N/AN/AN/AN/A2,65,000N/AtextR
221
普什图(阿富汗)发音词典
文本 ASR, TTS, 语言建模N/A65,000个单词 添加到咨询列表pus_AFG_PHONAppen Global发音词典普什图语阿富汗N/AN/AN/AN/A65,000N/AtextP
72
普什图(阿富汗)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话55小时 添加到咨询列表PAS_ASR001Appen Global对话录音普什图语阿富汗低背景噪音9672可根据要求提供13,6338wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
在大多数的通话中,对话双方的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话被收集并转录了
P
73
普什图(阿富汗)对话式麦克风录音语料库
音频 ASR, 对话式AI, 语音分析麦克风39小时 添加到咨询列表PAS_ASR002Appen Global对话录音普什图语阿富汗低背景噪音402可根据要求提供9,48016wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
转录文本可全部被翻译成法文, 作为可选的额外购买项
平均通话时间为120分钟,每则通话中由一名发言人担任采访者,另一名发言人担任受访者,模仿类似于TransTAC风格的场景(例如民政事务询问,检查站询问等)
面试官出现在不止一组对话中,但每组对话中的被面试者都是唯一的
P
74
普什图(阿富汗)广播录音数据库
音频 ASR, 自动字幕, 关键字检索麦克风51小时 添加到咨询列表PAS_BRC001Appen Global广播录音普什图语阿富汗低背景噪音(录音棚)N/A1可根据要求提供可根据要求提供N/Awav数据集已完全转录并加上时间戳
数据集主要是语音,不包括音乐或广告
数据类型包括:脱口秀,访谈,新闻广播(不包括主持人阅读的新闻)
P
134
普通话NER语料库
文本 NER, 内容分类, 搜索引擎N/A17,313个句子 添加到咨询列表MAC_NER001Appen GlobalNER普通话中国N/AN/AN/A17,313可根据要求提供N/AtextP
62
普通话(中国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话和固定电话323小时 添加到咨询列表MAC_ASR001Appen Global有定稿的录音普通话中国混合2,00012,00,0007,1458alaw完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典[SAMPA]
每个语料提供者录制98个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令(从215个指令中挑选),语音丰富的句子和单词
P
63
普通话(中国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风26小时 添加到咨询列表MAC_ASR002Global Phone有定稿的录音普通话中国低背景噪音(家庭/办公室)132110,225可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
P
214
普通话(简体)(中国)发音词典
文本 ASR, TTS, 语言建模N/A35,000个单词 添加到咨询列表zho_CHN_PHONAppen Global发音词典中文(简体)中国N/AN/AN/AN/A35,000N/AtextP
215
普通话(繁体)(台湾)发音词典
文本 ASR, TTS, 语言建模N/A50,000个单词 添加到咨询列表zho_TWN_PHONAppen Global发音词典中文(繁体)台湾N/AN/AN/AN/A50,000N/AtextP
186
法语(加拿大)发音词典
文本 ASR, TTS, 语言建模N/A67,000个单词 添加到咨询列表fra_CAN_PHONAppen Global发音词典法语加拿大N/AN/AN/AN/A67,000N/AtextF
36
法语(加拿大)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话9小时 添加到咨询列表FRC_ASR003Appen Global对话录音法语加拿大混合682可根据要求提供6,0228alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
平均通话时长为10到15分钟
在大多数通话中,只有一半的对话被收集并转录了,但是对于一小部分的通话,对话双方(呼入者和呼出者)的说话内容都被收集并转录了
F
34
法语(加拿大)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话131小时 添加到咨询列表FRC_ASR001Appen Global有定稿的录音法语加拿大混合1,00011,00,00011,6978alaw完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典[SAMPA]
每个语料提供者录制100个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
F
35
法语(加拿大)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风46小时 添加到咨询列表FRC_ASR002Appen Global有定稿的录音法语加拿大低背景噪音(家庭/办公室)150122,50010,75516alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
每个语料提供者录制150个语料,语料包含数字,数字串(随机生成的),地址,语音丰富的句子和单词
F
60
法语(卢森堡)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话45小时 添加到咨询列表Luxembourgish French SpeechDat(II) FDB-500 (FIXED1LF)Nuance有定稿的录音法语卢森堡低背景噪音614132,000可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制53个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
F
5
法语(比利时)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话76小时 添加到咨询列表Belgian French SpeechDat(II) FDB-1000 (FIXED1BF)Nuance有定稿的录音法语比利时低背景噪音1,000153,000可根据要求提供8alaw数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制53个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令
F
187
法语(法国)发音词典
文本 ASR, TTS, 语言建模N/A112,000个单词 添加到咨询列表fra_FRA_PHONAppen Global发音词典法语法国N/AN/AN/AN/A1,12,000N/AtextF
40
法语(法国)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话25小时 添加到咨询列表FRF_ASR001Appen Global对话录音法语法国低背景噪音5632可根据要求提供11,9228alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
在大多数的通话中,对话双方的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话被收集并转录了
F
37
法语(法国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话41小时 添加到咨询列表French SpeechDat(II) FDB-1000Nuance有定稿的录音法语法国低背景噪音(家庭/办公室)1,017148,000可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
F
38
法语(法国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话305小时 添加到咨询列表French SpeechDat(II) FDB-5000Nuance有定稿的录音法语法国低背景噪音5,04012,37,000可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制47个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
F
41
法语(法国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风26小时 添加到咨询列表FRF_ASR003Global Phone有定稿的录音法语法国低背景噪音(家庭/办公室)98110,273可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
F
188
法语(法国)词性词典
文本 ASR, TTS, 语言建模N/A95,000个单词 添加到咨询列表fra_FRA_POSAppen Global词性词典法语法国N/AN/AN/AN/A95,000N/AtextF
39
法语(法国)车内录音语料库
音频 ASR, 虚拟助手, 车载HMI及娱乐设备麦克风和移动电话 添加到咨询列表French SpeechDat-CarNuance有定稿的录音法语法国混合(车内)300537,500可根据要求提供16和8可根据要求提供数据集已完全转录,并附有发音词典和验证报告
每个语料提供者录制大约125个语料,语料包含数字,自然数,字母串,个人、地点和企业名称(一些是自由发挥的),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的语料
F
145
法语(阿尔及利亚)发音词典
文本 ASR, TTS, 语言建模N/A4,000个单词 添加到咨询列表fra_DZA_PHONAppen Global发音词典法语阿尔及利亚N/AN/AN/AN/A4,000N/Atext阿拉伯文字F
222
波兰语(波兰)发音词典
文本 ASR, TTS, 语言建模N/A40,000个单词 添加到咨询列表pol_POL_PHONAppen Global发音词典波兰语波兰N/AN/AN/AN/A40,000N/AtextB
120
波兰语(波兰)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人移动电话293小时 添加到咨询列表POL_ASR002_CNAppen China有定稿的录音波兰语波兰低背景噪音(家庭/办公室)35311,06,6741,68,54416wav数据集已完全转录B
76
波兰语(波兰)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话78小时 添加到咨询列表Polish SpeechDat(E) DatabaseNuance有定稿的录音波兰语波兰低背景噪音1,000148,000可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
B
75
波兰语(波兰)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风25小时 添加到咨询列表POL_ASR001Global Phone有定稿的录音波兰语波兰低背景噪音(家庭/办公室)99110,130可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
B
223
波兰语(波兰)词性词典
文本 ASR, TTS, 语言建模N/A4,000个单词 添加到咨询列表pol_POL_POSAppen Global词性词典波兰语波兰N/AN/AN/AN/A4,000N/AtextB
135
波斯语NER语料库
文本 NER, 内容分类, 搜索引擎N/A19,584个句子 添加到咨询列表FAR_NER001Appen GlobalNER波斯语伊朗N/AN/AN/A19,584可根据要求提供N/AtextB
32
波斯语(伊朗)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话30小时 添加到咨询列表FAR_ASR002Appen Global对话录音波斯语伊朗混合1,0002可根据要求提供12,3588wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
B
31
波斯语(伊朗)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话和固定电话85小时 添加到咨询列表FAR_ASR001Appen Global有定稿的录音波斯语伊朗混合789138,4008,7168alaw完全转录为OrienTel类型
数据集附带一个包含所有转录词的发音词典[SAMPA]
每个语料提供者录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
B
246
泰卢固语(印度)发音词典
文本 ASR, TTS, 语言建模N/A50,000个单词 添加到咨询列表tel_IND_PHONAppen Global发音词典泰卢固语印度N/AN/AN/AN/A50,000N/AtextT
247
泰米尔文(印度)发音词典
文本 ASR, TTS, 语言建模N/A105,000个单词 添加到咨询列表tam_IND_PHONAppen Global发音词典泰米尔语印度N/AN/AN/AN/A1,05,000N/AtextT
127
泰语(泰国)印刷文本OCR
图像 文件处理, 文件搜索照相机1219张图片 添加到咨询列表IMG_OCR_THA_CNAppen ChinaOCR泰语泰国不同光线10NANANANAjpg包含文字的图像,例如购物收据,票据,发票,出租车发票等等T
248
泰语(泰国)发音词典
文本 ASR, TTS, 语言建模N/A30,000个单词 添加到咨询列表tha_THA_PHONAppen Global发音词典泰语泰国N/AN/AN/AN/A30,000N/AtextT
101
泰语(泰国)麦克风录音数据库
音频 ASR, 虚拟助手, 聊天机器人麦克风28小时 添加到咨询列表THA_ASR001Global Phone有定稿的录音泰语泰国低背景噪音(家庭/办公室)98114,039可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
T
194
海地克里奥尔语(海地)发音词典
文本 ASR, TTS, 语言建模N/A15,000个单词 添加到咨询列表hat_HTI_PHONAppen Global发音词典海地克里奥尔语海地N/AN/AN/AN/A15,000N/AtextH
257
湘语(中国)发音词典
文本 ASR, TTS, 语言建模N/A10,000个单词 添加到咨询列表hsn_CHN_PHONAppen Global发音词典湘语中国N/AN/AN/AN/A10,000N/AtextX
204
爪哇语(印度尼西亚)发音词典
文本 ASR, TTS, 语言建模N/A20,000个单词 添加到咨询列表jav_IDN_PHONAppen Global发音词典爪哇语印度尼西亚N/AN/AN/AN/A20,000N/AtextG
242
瑞典文(瑞典)发音词典
文本 ASR, TTS, 语言建模N/A100,000个单词 添加到咨询列表swe_SWE_PHONAppen Global发音词典瑞典语瑞典N/AN/AN/AN/A1,00,000N/AtextR
243
瑞典文(瑞典)词性词典
文本 ASR, TTS, 语言建模N/A105,000个单词 添加到咨询列表swe_SWE_POSAppen Global词性词典瑞典语瑞典N/AN/AN/AN/A1,05,000N/AtextR
98
瑞典(瑞典/芬兰)麦克风录音数据库
音频 ASR, 虚拟助手, 聊天机器人麦克风30小时 添加到咨询列表SWE_ASR001Global Phone有定稿的录音瑞典语瑞典-芬兰低背景噪音(家庭/办公室)98111,816可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
R
192
瓜拉尼语(巴拉圭)发音词典
文本 ASR, TTS, 语言建模N/A35,000个单词 添加到咨询列表grn_PRY_PHONAppen Global发音词典瓜拉尼语巴拉圭N/AN/AN/AN/A35,000N/AtextG
258
祖鲁人(南非)发音词典
文本 ASR, TTS, 语言建模N/A75,000个单词 添加到咨询列表zul_ZAF_PHONAppen Global发音词典祖鲁语南非N/AN/AN/AN/A75,000N/AtextZ
211
立陶宛语(立陶宛)发音词典
文本 ASR, TTS, 语言建模N/A60,000个单词 添加到咨询列表lit_LTU_PHONAppen Global发音词典立陶宛语立陶宛N/AN/AN/AN/A60,000N/AtextL
126
简体中文印刷文本OCR
图像 文件处理, 文件搜索照相机200张图片 添加到咨询列表IMG_OCR_MAC_CNAppen ChinaOCRN/A中国不同光线30NANANANAjpg每张图片中的文字均被线条边框所标记
包含大量中文的图像,例如书籍,出版物,海报,收据,PPT以及印刷品等等
Z
233
索拉尼(伊拉克)发音词典
文本 ASR, TTS, 语言建模N/A25,000个单词 添加到咨询列表kur_IRQ_PHONAppen Global发音词典索马里语伊拉克N/AN/AN/AN/A25,000N/AtextS
232
索马里(索马里)发音词典
文本 ASR, TTS, 语言建模N/A76,000个单词 添加到咨询列表som_SOM_PHONAppen Global发音词典索马里语索马里N/AN/AN/AN/A76,000N/AtextS
87
索马里(索马里)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话50小时 添加到咨询列表SOM_ASR001Appen Global对话录音索马里语索马里低背景噪音1,0002可根据要求提供23,2178alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
S
228
罗马尼亚语(罗马尼亚)发音词典
文本 ASR, TTS, 语言建模N/A15,000个单词 添加到咨询列表ron_ROU_PHONAppen Global发音词典罗马尼亚语罗马尼亚N/AN/AN/AN/A15,000N/AtextL
81
罗马尼亚语(罗马尼亚)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话37小时 添加到咨询列表ROM_ASR001Appen Global对话录音罗马尼亚语罗马尼亚低背景噪音2002可根据要求提供16,6588alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
L
210
老挝(老挝)发音词典
文本 ASR, TTS, 语言建模N/A9,000个单词 添加到咨询列表lao_LAO_PHONAppen Global发音词典老挝语老挝N/AN/AN/AN/A9,000N/AtextL
128
芬兰语(芬兰)印刷文本OCR
图像 文件处理, 文件搜索照相机7293张图片 添加到咨询列表IMG_OCR_FIN_CNAppen ChinaOCR芬兰语芬兰不同光线4NANANANAjpg包含文字的图像,例如广告牌,产品外包装,标志牌,杂志以及菜单等等F
184
芬兰语(芬兰)发音词典
文本 ASR, TTS, 语言建模N/A85,000个单词 添加到咨询列表fin_FIN_PHONAppen Global发音词典芬兰语芬兰N/AN/AN/AN/A85,000N/AtextF
185
芬兰语(芬兰)词性词典
文本 ASR, TTS, 语言建模N/A10,000个单词 添加到咨询列表fin_FIN_POSAppen Global词性词典芬兰语芬兰N/AN/AN/AN/A10,000N/AtextF
170
英文(加拿大)发音词典
文本 ASR, TTS, 语言建模N/A50,000个单词 添加到咨询列表eng_CAN_PHONAppen Global发音词典英语加拿大N/AN/AN/AN/A50,000N/AtextY
22
英文(加拿大)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话和固定电话144小时 添加到咨询列表ENC_ASR001Appen Global有定稿的录音英语加拿大混合1,000199,00012,4838alaw或wav完全转录为SALA II/SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个语料提供者录制99个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
Y
171
英文(加拿大)词性词典
文本 ASR, TTS, 语言建模N/A3,000个单词 添加到咨询列表eng_CAN_POSAppen Global词性词典英语加拿大N/AN/AN/AN/A3,000N/AtextY
174
英文(印度)发音词典
文本 ASR, TTS, 语言建模N/A60,000个单词 添加到咨询列表eng_IND_PHONAppen Global发音词典英语印度N/AN/AN/AN/A60,000N/AtextY
25
英文(印度)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话67小时 添加到咨询列表ENI_ASR002Appen Global对话录音英语印度低背景噪音540277,56511,6468alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了271个电话对话
Y
24
英文(印度)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话和固定电话217小时 添加到咨询列表ENI_ASR001Appen Global有定稿的录音英语印度混合2,35811,17,9009,1908alaw完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典[SAMPA]
每个语料提供者录制49个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
Y
175
英文(印度)词性词典
文本 ASR, TTS, 语言建模N/A13,000个单词 添加到咨询列表eng_IND_POSAppen Global词性词典英语印度N/AN/AN/AN/A13,000N/AtextY
172
英文(菲律宾)发音词典
文本 ASR, TTS, 语言建模N/A5,000个单词 添加到咨询列表eng_PHL_PHONAppen Global发音词典英语菲律宾N/AN/AN/AN/A5,000N/AtextY
23
英文(菲律宾)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话53小时 添加到咨询列表ENF_ASR001Appen Global对话录音英语菲律宾低背景噪音450241,6027,2728alaw或wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
平均通话时长为10到15分钟
Y
21
英文(阿拉伯文-黎凡特/埃及)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话28小时 添加到咨询列表ENA_ASR001Appen Global对话录音英语埃及低背景噪音2502可根据要求提供5,6198alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
平均通话时长为10到15分钟
Y
131
英语NER语料库
文本 NER, 内容分类, 搜索引擎N/A22,768个句子 添加到咨询列表ENG_NER001Appen GlobalNER英语N/AN/AN/AN/A22,768可根据要求提供N/AtextY
169
英语(澳大利亚)发音词典
文本 ASR, TTS, 语言建模N/A157,000个单词 添加到咨询列表eng_AUS_PHONAppen Global发音词典英语澳大利亚N/AN/AN/AN/A1,57,000N/AtextY
2
英语(澳大利亚)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话和固定电话92小时 添加到咨询列表AUS_ASR001Appen Global有定稿的录音英语澳大利亚低背景噪音(家庭/办公室)500182,50035,1378alaw完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个语料提供者录制162个朗读录音,录音包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令(从215个指令中挑选),语音丰富的句子和单词
E
3
英语(澳大利亚)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话和固定电话118小时 添加到咨询列表AUS_ASR002Appen Global有定稿的录音英语澳大利亚混合1,000175,000198alaw完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个语料提供者录制75个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
语料包含了有定稿的录音和自由发挥的录音,其中每个稿子包含了5条自由发挥的录音
E
176
英语(爱尔兰)发音词典
文本 ASR, TTS, 语言建模N/A12,000个单词 添加到咨询列表eng_IRL_PHONAppen Global发音词典英语爱尔兰N/AN/AN/AN/A12,000N/AtextY
177
英语(纽西兰)发音词典
文本 ASR, TTS, 语言建模N/A50,000个单词 添加到咨询列表eng_NZL_PHONAppen Global发音词典英语纽西兰N/AN/AN/AN/A50,000N/AtextY
180
英语(美国)发音词典
文本 ASR, TTS, 语言建模N/A330,000个单词 添加到咨询列表eng_USA_PHONAppen Global发音词典英语美国N/AN/AN/AN/A3,30,000N/AtextY
107
英语(美国)对话式的智能手机录音语料库
音频 ASR, 对话式AI, 语音分析移动电话1,000小时 添加到咨询列表USE_ASR003Appen Global对话录音英语美国低背景噪音2,00015,00,00052,58616wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
对话涵盖了各种主题,包括学习/专业/工作,家乡,生活安排,天气和季节,准时,电视节目/电影
Y
93
英语(美国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风53小时 添加到咨询列表Speecon English (USA) databaseNuance有定稿的录音英语美国混合(办公室/娱乐场所/车内/公共场所)600(550个成年语料提供者及50个儿童语料提供者)41,70,000可根据要求提供16可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年语料提供者录制290个语料,每个儿童语料提供者录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童语料提供者还需要提供关于玩具,手机的指令以及通用指令,成年语料提供者还需要提供应用词汇,以及自由发挥的语料
Y
106
英语(美国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风62小时 添加到咨询列表USE_ASR001Appen Global有定稿的录音英语美国低背景噪音(录音棚)200280,00018,31848alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
每个语料提供者录制400个语料,语料包括数字,自然数,人名,城市名,电话号码,通用指令和特定指令,语音丰富的句子和单词
Y
181
英语(美国)词性词典
文本 ASR, TTS, 语言建模N/A263,000个单词 添加到咨询列表eng_USA_POSAppen Global词性词典英语美国N/AN/AN/AN/A2,63,000N/AtextY
99
英语(英国)
音频 TTS头戴式麦克风11小时 添加到咨询列表TC-STAR female baseline voice LauraNuance有定稿的录音英语英国低背景噪音(录音棚)11可根据要求提供可根据要求提供96可根据要求提供数据集包括人工正字法转录的转录文件,自动分割的音素,自动生成的音高标记(已手动检查了一定比例的语音段和音高标记)
数据集附有一个包含词性,词元和音标的发音词典
Y
100
英语(英国)
音频 TTS头戴式麦克风7小时 添加到咨询列表TC-STAR male baseline voice IanNuance有定稿的录音英语英国低背景噪音(录音棚)11可根据要求提供可根据要求提供96可根据要求提供数据集包括人工正字法转录的转录文件,自动分割的音素,自动生成的音高标记(已手动检查了一定比例的语音段和音高标记)
数据集附有一个包含词性,词元和音标的发音词典
Y
178
英语(英国)发音词典
文本 ASR, TTS, 语言建模N/A195,000个单词 添加到咨询列表eng_GBR_PHONAppen Global发音词典英语英国N/AN/AN/AN/A1,95,000N/AtextY
259
英语(英国)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话50小时 添加到咨询列表UKE_ASR001BAppen Global对话录音英语英国低背景噪音1,1502可根据要求提供13,1928wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
Y
104
英语(英国)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话150小时 添加到咨询列表UKE_ASR001Appen Global对话录音英语英国低背景噪音1,15022,98,56224,1938wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
Y
179
英语(英国)词性词典
文本 ASR, TTS, 语言建模N/A155,000个单词 添加到咨询列表eng_GBR_POSAppen Global词性词典英语英国N/AN/AN/AN/A1,55,000N/AtextY
168
英语(阿拉伯联合酋长国)发音词典
文本 ASR, TTS, 语言建模N/A5,000个单词 添加到咨询列表eng_ARE_PHONAppen Global发音词典英语阿拉伯联合酋长国N/AN/AN/AN/A5,000N/AtextY
67
英语(阿拉伯联合酋长国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话和固定电话33小时 添加到咨询列表OrienTel English as spoken in the United Arab EmiratesNuance有定稿的录音英语阿拉伯联合酋长国低背景噪音500125,500可根据要求提供8alaw数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制51个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令
Y
173
英语(香港)发音词典
文本 ASR, TTS, 语言建模N/A18,000个单词 添加到咨询列表eng_HKG_PHONAppen Global发音词典英语香港N/AN/AN/AN/A18,000N/AtextY
33
荷兰语(比利时)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手麦克风80小时 添加到咨询列表Flemish SpeechDat(II) FDB-1000 (FIXED1FL)Nuance有定稿的录音荷兰语比利时低背景噪音1,000152,000可根据要求提供8alaw数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制52个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令
H
91
荷兰语(比利时)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风47小时 添加到咨询列表Speecon Dutch from BelgiumNuance有定稿的录音荷兰语比利时混合(办公室/娱乐场所/车内/公共场所)600(550个成年语料提供者及50个儿童语料提供者)41,70,000可根据要求提供16alaw数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年语料提供者录制290个语料,每个儿童语料提供者录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童语料提供者还需要提供关于玩具,手机的指令以及通用指令,成年语料提供者还需要提供应用词汇,以及自由发挥的语料
H
19
荷兰语(荷兰和比利时)有定稿的车内录音语料库
音频 ASR, 虚拟助手, 车载HMI及娱乐设备麦克风和移动电话27小时 添加到咨询列表Dutch and Flemish SpeechDat-CarNuance有定稿的录音荷兰语荷兰-比利时混合(车内)302515,100可根据要求提供16和8alaw数据集已完全转录,并附有发音词典和验证报告
每个成年语料提供者录制125个语料,语料包括数字,自然数,字母串,个人、地点和企业名称(一些是自由发挥的),通用指令和特定指令,语音丰富的句子和单词及自由发挥的语料
H
167
荷兰语(荷兰)发音词典
文本 ASR, TTS, 语言建模N/A45,000个单词 添加到咨询列表nld_NLD_PHONAppen Global发音词典荷兰语荷兰N/AN/AN/AN/A45,000N/AtextH
66
荷兰语(荷兰)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话36小时 添加到咨询列表NLD_ASR001Appen Global对话录音荷兰语荷兰低背景噪音2002可根据要求提供14,9648alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
H
92
荷兰语(荷兰)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风68小时 添加到咨询列表Speecon Dutch from the NetherlandsNuance有定稿的录音荷兰语荷兰混合(办公室/娱乐场所/车内/公共场所)600(550个成年语料提供者及50个儿童语料提供者)41,70,000可根据要求提供16alaw数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年语料提供者录制290个语料,每个儿童语料提供者录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童语料提供者还需要提供关于玩具,手机的指令以及通用指令,成年语料提供者还需要提供应用词汇,以及自由发挥的语料
H
224
葡萄牙语(巴西)发音词典
文本 ASR, TTS, 语言建模N/A102,000个单词 添加到咨询列表por_BRA_PHONAppen Global发音词典葡萄牙语巴西N/AN/AN/AN/A1,02,000N/AtextP
78
葡萄牙语(巴西)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话33小时 添加到咨询列表PTB_ASR002Appen Global对话录音葡萄牙语巴西低背景噪音2002可根据要求提供11,2878alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
P
225
葡萄牙语(巴西)词性词典
文本 ASR, TTS, 语言建模N/A100,000个单词 添加到咨询列表por_BRA_POSAppen Global词性词典葡萄牙语巴西N/AN/AN/AN/A1,00,000N/AtextP
77
葡萄牙语(巴西)麦克风录音数据库
音频 ASR, 虚拟助手, 聊天机器人麦克风26小时 添加到咨询列表PTB_ASR001Global Phone有定稿的录音葡萄牙语巴西低背景噪音(家庭/办公室)102110,417可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
P
226
葡萄牙语(葡萄牙)发音词典
文本 ASR, TTS, 语言建模N/A112,000个单词 添加到咨询列表por_PRT_PHONAppen Global发音词典葡萄牙语葡萄牙N/AN/AN/AN/A1,12,000N/AtextP
79
葡萄牙语(葡萄牙)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话36小时 添加到咨询列表PTP_ASR001Appen Global对话录音葡萄牙语葡萄牙低背景噪音2002可根据要求提供16,3398alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
P
227
葡萄牙语(葡萄牙)词性词典
文本 ASR, TTS, 语言建模N/A100,000个单词 添加到咨询列表por_PRT_POSAppen Global词性词典葡萄牙语葡萄牙N/AN/AN/AN/A1,00,000N/AtextP
217
蒙古语(蒙古)发音词典
文本 ASR, TTS, 语言建模N/A30,000个单词 添加到咨询列表mon_MNG_PHONAppen Global发音词典蒙古语蒙古N/AN/AN/AN/A30,000N/AtextM
237
西班牙文(哥伦比亚)发音词典
文本 ASR, TTS, 语言建模N/A15,000个单词 添加到咨询列表spa_COL_PHONAppen Global发音词典西班牙语哥伦比亚N/AN/AN/AN/A15,000N/AtextX
240
西班牙文(委内瑞拉)发音词典
文本 ASR, TTS, 语言建模N/A15,000个单词 添加到咨询列表spa_VEN_PHONAppen Global发音词典西班牙语委内瑞拉N/AN/AN/AN/A15,000N/AtextX
236
西班牙文(智利)发音词典
文本 ASR, TTS, 语言建模N/A15,000个单词 添加到咨询列表spa_CHL_PHONAppen Global发音词典西班牙语智利N/AN/AN/AN/A15,000N/AtextX
235
西班牙文(西班牙)发音词典
文本 ASR, TTS, 语言建模N/A100,000个单词 添加到咨询列表spa_ESP_PHONAppen Global发音词典西班牙语西班牙N/AN/AN/AN/A1,00,000N/AtextX
117
西班牙文(西班牙)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人移动电话540小时 添加到咨询列表ESP_ASR002_CNAppen China有定稿的录音西班牙语西班牙低背景噪音(家庭/办公室)34712,58,3951,34,93916wav数据集已完全转录X
28
西班牙文(西班牙)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风39小时 添加到咨询列表ESP_ASR001Appen Global有定稿的录音西班牙语西班牙混合200440,0006,36722alaw完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个语料提供者录制200个语料,语料包括100个命令和特定指令,100个语音丰富的句子
X
30
西班牙文(西班牙)有定稿的麦克风录音语料库
音频 TTS麦克风1小时 添加到咨询列表ESP_TTS001Appen Global有定稿的录音西班牙语西班牙低背景噪音(录音棚)111,7873,61422alaw数据集随附一个发音词典,其中包含该数据集中所说的所有单词
每个演讲者提供1787条语料,包括语音丰富的句子
X
97
西班牙文(西班牙)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风46小时 添加到咨询列表Speecon Spanish DatabaseNuance有定稿的录音西班牙语西班牙混合(办公室/娱乐场所/车内/公共场所)600(550个成年语料提供者及50个儿童语料提供者)41,70,000可根据要求提供16可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年语料提供者录制290个语料,每个儿童语料提供者录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童语料提供者还需要提供关于玩具,手机的指令以及通用指令,成年语料提供者还需要提供应用词汇,以及自由发挥的语料
X
27
西班牙语(拉丁美洲-智利和哥伦比亚)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话22小时 添加到咨询列表ESL_ASR002Appen Global对话录音西班牙语智利-哥伦比亚混合842可根据要求提供可根据要求提供8wav数据集已完全转录并加了时间戳
银行和电信领域的呼叫中心风格的对话(由64个客户和14个代理商提供的),主要使用移动电话
X
26
西班牙语(拉丁美洲)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风17小时 添加到咨询列表ESL_ASR001Global Phone有定稿的录音西班牙语哥斯达黎加低背景噪音(家庭/办公室)10016,898可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
X
238
西班牙语(秘鲁)发音词典
文本 ASR, TTS, 语言建模N/A15,000个单词 添加到咨询列表spa_PER_PHONAppen Global发音词典西班牙语秘鲁N/AN/AN/AN/A15,000N/AtextX
239
西班牙语(美国)发音词典
文本 ASR, TTS, 语言建模N/A90,000个单词 添加到咨询列表spa_USA_PHONAppen Global发音词典西班牙语美国N/AN/AN/AN/A90,000N/AtextX
234
西班牙语(阿根廷)发音词典
文本 ASR, TTS, 语言建模N/A15,000个单词 添加到咨询列表spa_ARG_PHONAppen Global发音词典西班牙语阿根廷N/AN/AN/AN/A15,000N/AtextX
44
豪萨语有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风20小时 添加到咨询列表HAU_ASR001Global Phone有定稿的录音豪萨语多国低背景噪音(家庭/办公室)10317,895可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
H
195
豪萨(尼日利亚)发音词典
文本 ASR, TTS, 语言建模N/A11,000个单词 添加到咨询列表hau_NGA_PHONAppen Global发音词典豪萨语奈及利亚N/AN/AN/AN/A11,000N/AtextH
45
豪萨(尼日利亚)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话33小时 添加到咨询列表HAU_ASR002Appen Global对话录音豪萨语奈及利亚低背景噪音2002可根据要求提供7,9498alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
H
255
越南(Vietnam)发音词典
文本 ASR, TTS, 语言建模N/A8,000个单词 添加到咨询列表vie_VNM_PHONAppen Global发音词典越南语越南N/AN/AN/AN/A8,000N/AtextY
108
越南(Vietnam)麦克风录音数据库
音频 ASR, 虚拟助手, 聊天机器人麦克风47小时 添加到咨询列表VIE_ASR001Global Phone有定稿的录音越南语越南低背景噪音(家庭/办公室)129118,842可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
Y
129
身体移动视频库
视频 健身应用, 行为识别, 手势识别移动电话2000个视频 添加到咨询列表VED_HUMAN_BODY_CNAppen China人体N/A中国不同背景及光线1000NANANANAmp4每个视频片段长约10至20秒Z
165
达里语(阿富汗)发音词典
文本 ASR, TTS, 语言建模N/A30,000个单词 添加到咨询列表prs_AFG_PHONAppen Global发音词典达里语阿富汗N/AN/AN/AN/A30,000N/AtextD
14
达里语(阿富汗)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话40小时 添加到咨询列表DAR_ASR001Appen Global对话录音达里语阿富汗低背景噪音5002可根据要求提供11,1688alaw数据集已完全转录并加上时间戳
数据集主要是语音,不包括音乐或广告
D
15
达里语(阿富汗)广播录音数据库
音频 ASR, 自动字幕, 关键字检索麦克风51小时 添加到咨询列表DAR_BRC001Appen Global广播录音达里语阿富汗低背景噪音(录音棚)N/A1可根据要求提供可根据要求提供N/Awav数据集已完全转录并加上时间戳
数据集主要是语音,不包括音乐或广告
数据类型包括:脱口秀,访谈,新闻广播(不包括主持人阅读的新闻)
D
139
阿姆哈拉语(埃塞俄比亚)发音词典
文本 ASR, TTS, 语言建模N/A45,000个单词 添加到咨询列表amh_ETH_PHONAppen Global发音词典阿姆哈拉语埃塞俄比亚N/AN/AN/AN/A45,000N/AtextA
138
阿尔巴尼亚语(阿尔巴尼亚)发音词典
文本 ASR, TTS, 语言建模N/A12,000个单词 添加到咨询列表sqi_ALB_PHONAppen Global发音词典阿尔巴尼亚语阿尔巴尼亚N/AN/AN/AN/A12,000N/AtextA
130
阿拉伯语NER语料库
文本 NER, 内容分类, 搜索引擎N/A20,774个句子 添加到咨询列表ARB_NER001Appen GlobalNER阿拉伯语N/AN/AN/AN/A20,774可根据要求提供N/AtextA
147
阿拉伯语发音词典
文本 ASR, TTS, 语言建模N/A40,000个单词 添加到咨询列表arb_N/A_PHONAppen Global发音词典阿拉伯语N/AN/AN/AN/AN/A40,000N/AtextA
141
阿拉伯语(伊拉克)发音词典
文本 ASR, TTS, 语言建模N/A15,000个单词 添加到咨询列表ara_IRQ_PHONAppen Global发音词典阿拉伯语伊拉克N/AN/AN/AN/A15,000N/Atext人名A
142
阿拉伯语(伊拉克)词性词典
文本 ASR, TTS, 语言建模N/A13,000个单词 添加到咨询列表ara_IRQ_POSAppen Global词性词典阿拉伯语伊拉克N/AN/AN/AN/A13,000N/AtextA
143
阿拉伯语(利比亚)发音词典
文本 ASR, TTS, 语言建模N/A48,000个单词 添加到咨询列表ara_LBY_PHONAppen Global发音词典阿拉伯语利比亚N/AN/AN/AN/A48,000N/AtextA
140
阿拉伯语(埃及)发音词典
文本 ASR, TTS, 语言建模N/A40,000个单词 添加到咨询列表ara_EGY_PHONAppen Global发音词典阿拉伯语埃及N/AN/AN/AN/A40,000N/AtextA
114
阿拉伯语(埃及)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人移动电话352小时 添加到咨询列表ARE_ASR001_CNAppen China有定稿的录音阿拉伯语埃及低背景噪音(家庭/办公室)62711,28,9082,07,57616wav数据集已完全转录A
146
阿拉伯语(摩洛哥)发音词典
文本 ASR, TTS, 语言建模N/A60,000个单词 添加到咨询列表ara_MAR_PHONAppen Global发音词典阿拉伯语摩洛哥N/AN/AN/AN/A60,000N/AtextA
113
阿拉伯语(摩洛哥)对话式的电话录音翻译
文本 MT, 聊天机器人, 对话式AIN/A80,544语句 添加到咨询列表ARY_MT001Appen Global对话翻译阿拉伯语摩洛哥N/A180N/A80,43023,844N/Atext相应的音频,转录文本,完全可逆的罗马化的转录文本及发音词典见数据集ARY_ASR001和ARY_ASRMT001A
112
阿拉伯语(摩洛哥)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话33小时 添加到咨询列表ARY_ASR001Appen Global对话录音阿拉伯语摩洛哥低背景噪音180280,54423,8368alaw每个语料提供者参与了1至4个对话,每个语料提供者由一个记录在人口统计文件中的唯一的4位数的演讲者ID来识别
此转录文件有原始版本和完全可逆的罗马化版本,并附带发音词典
产品转录的英文翻译见数据集ARY_MT001和ARY_ASRMT001
A
115
阿拉伯语(沙特阿拉伯)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人移动电话322小时 添加到咨询列表ARS_ASR001_CNAppen China有定稿的录音阿拉伯语沙特阿拉伯低背景噪音(家庭/办公室)22711,04,5741,56,28216wav数据集已完全转录A
65
阿拉伯语(现代标准阿拉伯语)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风12小时 添加到咨询列表MSA_ASR001Global Phone有定稿的录音阿拉伯语突尼斯低背景噪音(家庭/办公室)7814,908可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
A
149
阿拉伯语(苏丹)发音词典
文本 ASR, TTS, 语言建模N/A17,000个单词 添加到咨询列表ara_SDN_PHONAppen Global发音词典阿拉伯语苏丹N/AN/AN/AN/A17,000N/AtextA
20
阿拉伯语(阿尔及利亚东部)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话29小时 添加到咨询列表EAR_ASR001Appen Global对话录音阿拉伯语阿尔及利亚低背景噪音(家庭/办公室)4962可根据要求提供11,3278alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
在大多数通话中,对话双方(呼入者和呼出者)的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话内容被收集并转录了
A
144
阿拉伯语(阿尔及利亚)发音词典
文本 ASR, TTS, 语言建模N/A11,000个单词 添加到咨询列表ara_DZA_PHONAppen Global发音词典阿拉伯语阿尔及利亚N/AN/AN/AN/A11,000N/AtextA
9
阿拉伯语(阿拉伯联合酋长国/沙特阿拉伯)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风86小时 添加到咨询列表CGA_ASR001Appen Global有定稿的录音阿拉伯语阿拉伯联合酋长国-沙特阿拉伯低背景噪音(家庭/办公室)150442,00019,24516alaw语音文件内容已完全转录,精确到单词
所有录音均使用了衍生于SpeechDATmodel的方法进行标记
所有转录文件已被加注元音标识
每个语料提供者录制280个语料,语料包括15个人的名字和姓氏(共计30个),10个分开朗读的数字(0-10),随机生成的数字序列(每个序列包含8个数字),200个语音平衡的句子,30个语音平衡单词串(每个单词串包含10个单词)
A
148
阿拉伯语(阿拉伯联合酋长国)发音词典
文本 ASR, TTS, 语言建模N/A75,000个单词 添加到咨询列表ara_ARE_PHONAppen Global发音词典阿拉伯语阿拉伯联合酋长国N/AN/AN/AN/A75,000N/AtextA
122
阿拉伯语(阿拉伯联合酋长国)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人移动电话170小时 添加到咨询列表ARU_ASR001_CNAppen China有定稿的录音阿拉伯语阿拉伯联合酋长国低背景噪音(家庭/办公室)133142,35285,77516wav数据集已完全转录A
70
阿拉伯语(阿拉伯联合酋长国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话和固定电话48小时 添加到咨询列表OrienTel United Arab Emirates MCA (Modern Colloquial Arabic)Nuance有定稿的录音阿拉伯语阿拉伯联合酋长国低背景噪音880143,000可根据要求提供8alaw数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制49个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令
A
71
阿拉伯语(阿拉伯联合酋长国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话和固定电话31小时 添加到咨询列表OrienTel United Arab Emirates MSA (Modern Standard Arabic)Nuance有定稿的录音阿拉伯语阿拉伯联合酋长国低背景噪音500124,500可根据要求提供8alaw数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个语料提供者录制49个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令
A
150
阿萨姆语(印度)发音词典
文本 ASR, TTS, 语言建模N/A40,000个单词 添加到咨询列表asm_IND_PHONAppen Global发音词典阿萨姆语印度N/AN/AN/AN/A40,000N/AtextA
207
韩文(韩国)发音词典
文本 ASR, TTS, 语言建模N/A100,000个单词 添加到咨询列表kor_KOR_PHONAppen Global发音词典韩语韩国N/AN/AN/AN/A1,00,000N/AtextH
59
韩文(韩国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风20小时 添加到咨询列表KOR_ASR001Global Phone有定稿的录音韩语韩国低背景噪音(家庭/办公室)10018,107可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
H
208
韩文(韩国)词性词典
文本 ASR, TTS, 语言建模N/A100,000个单词 添加到咨询列表kor_KOR_POSAppen Global词性词典韩语韩国N/AN/AN/AN/A1,00,000N/AtextH
132
韩语NER语料库
文本 NER, 内容分类, 搜索引擎N/A25,830个句子 添加到咨询列表KOR_NER001Appen GlobalNER韩语韩国N/AN/AN/A25,830可根据要求提供N/AtextH
216
马拉地语(印度)发音词典
文本 ASR, TTS, 语言建模N/A30,000个单词 添加到咨询列表mar_IND_PHONAppen Global发音词典马拉地语印度N/AN/AN/AN/A30,000N/AtextM
64
马拉地语(印度)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话15小时 添加到咨询列表MAR_ASR001Appen Global对话录音马拉地语印度混合1802可根据要求提供11,9088alaw数据集中大约29%的会话被转录并加盖了时间戳,可以提供完整的转录文本
数据集附带一个包含所有转录词的发音词典
M
110
马拉地语(印度)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话52小时 添加到咨询列表MAR_ASR001AAppen Global对话录音马拉地语印度混合1,0002可根据要求提供11,9088alaw数据集的部分会话被转录并加盖了时间戳,可以提供完整的转录文本
数据集附带一个包含所有转录词的发音词典
M
212
马拉雅拉姆语(印度)发音词典
文本 ASR, TTS, 语言建模N/A4,000个单词 添加到咨询列表mal_IND_PHONAppen Global发音词典玛拉雅拉姆语印度N/AN/AN/AN/A4,000N/AtextM
213
马来西亚(马来西亚)发音词典
文本 ASR, TTS, 语言建模N/A10,000个单词 添加到咨询列表msa_MYS_PHONAppen Global发音词典马来语马来西亚N/AN/AN/AN/A10,000N/AtextM
123
高棉语(柬埔寨)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人移动电话90小时 添加到咨询列表KHM_ASR001_CNAppen China有定稿的录音高棉语柬埔寨低背景噪音(家庭/办公室)94124,61852,15716wav数据集已完全转录G
125
黑人(东非)脸部照片库
图像 面部识别照相机13500张图片 添加到咨询列表IMG_FACE_KEN_CNAppen China人脸N/A肯尼亚不同背景及光线100NANANANAjpgK





应用场景


无论您是在开发语音合成系统、语音识别系统还是其他依赖自然语言的解决方案,高质量的授权语音和语言数据集都能让您更快地进入市场,触达更多的潜在客户群