成品数据集


我们的经授权许可的成品数据集将快速启动您的AI项目

查看数据集产品目录
观看数据集视频介绍


Image

数据产品目录



澳鹏提供种类丰富的成品数据库,我们的数据产品目录包括250多个可授权的数据集,涵盖80多种语言及方言,适用于各种常见的AI应用场景,例如:TTS、ASR等(参考下面目录表的筛选功能查看更多应用场景)。我们也在不断更新数据库中,2020年将推出30多个全新数据集,联系我们为您一同构建适用于您的项目的数据产品。



Image

快速部署



直接获取数据库产品快速为您部署AI与机器学习项目


Image

低成本高效益



直接获取经授权的成品数据库比您定制数据采集服务更具成本效益。


Image

专家团队



您将拥有一支在数据采集领域耕耘20多年的专家团队支持


Image

支持所有数据类型



图像,视频,语音,音频,文本

Image

大规模



提供大量、高品质的数据高效地训练您的机器模型

Image

高质量



提高您的机器模型质量并减少数据偏见






数据集名称产品类型常见应用场景录音设备单元
数据库名称产品类型常见使用案例录音设备单元
84
Sorani(库尔德语)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话5小时 添加到咨询列表SOR_ASR001Appen Global对话录音库尔德语伊朗低背景噪音1702可根据要求提供7 9248alaw或wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
对于很大比例的电话录音,只有一半的对话被收集和转录
K
256
上海方言(中国)多人对话式录音语料库
音频 ASR, 对话式AI, 语音分析移动电话4.5 小时 添加到咨询列表SHANGHAI_ASR002_CNAppen China对话录音上海方言中国低背景噪音(家庭/办公室)141NANA8wav覆盖地区: 上海黄浦区、徐汇区、长宁区、静安区、普陀区、虹口区、杨浦区、浦东新区八区。 注:数据不包含上海郊区口音数据以及未成年人录制数据。 单人发音时长约40分钟,单个语音对话20~30分钟之间 内容为2~5人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。 数据库只是语音库,不含有转写文字Z
255
上海方言(中国)多人对话式录音语料库
音频 ASR, 对话式AI, 语音分析录音笔/麦克风21小时 添加到咨询列表SHANGHAI_ASR001_CNAppen China对话录音上海方言中国低背景噪音(家庭/办公室)511NANA16wav覆盖地区: 上海黄浦区、徐汇区、长宁区、静安区、普陀区、虹口区、杨浦区、浦东新区八区。 注:数据不包含上海郊区口音数据以及未成年人录制数据。 单人发音时长约40分钟,单个语音对话20~30分钟之间 内容为2~5人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。 数据库只是语音库,不含有转写文字Z
277
上海语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风4.1小时 添加到咨询列表SHANGHAI_ASR003_CNAppen China语料朗读上海中国低背景噪音(家庭/办公室)8 NANA16wavZ
257
东北方言(中国)多人对话式录音语料库
音频 ASR, 对话式AI, 语音分析录音笔/麦克风84.6小时 添加到咨询列表DONGBEI_ASR001_CNAppen China对话录音东北方言中国低背景噪音(家庭/办公室)2681NANA16wav覆盖地区: 沈阳和平区、沈河区、皇姑区、大东区、铁西区、绿园区,朝阳区,宽城区,二道区,南关区、道里区、南岗区、道外区、平房区、松北区、香坊区、呼兰区、阿城区、双城区十九个区 注:数据不包含东北郊区口音数据以及未成年人录制数据。 单人发音时长约40分钟,单个语音对话20~30分钟之间 内容为2~5人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。 数据库只是语音库,不含有转写文字Z
258
东北方言(中国)多人对话式录音语料库
音频 ASR, 对话式AI, 语音分析移动电话75.2小时 添加到咨询列表DONGBEI_ASR002_CNAppen China对话录音东北方言中国低背景噪音(家庭/办公室)1851NANA8wav覆盖地区: 沈阳和平区、沈河区、皇姑区、大东区、铁西区、绿园区,朝阳区,宽城区,二道区,南关区、道里区、南岗区、道外区、平房区、松北区、香坊区、呼兰区、阿城区、双城区十九个区 注:数据不包含东北郊区口音数据以及未成年人录制数据。 单人发音时长约40分钟,单个语音对话20~30分钟之间 内容为2~5人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。 数据库只是语音库,不含有转写文字Z
276
东北语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风2.72小时 添加到咨询列表DONGBEI_ASR003_CNAppen China语料朗读东北中国低背景噪音(家庭/办公室)8 NANA16wavZ
159
丹麦(丹麦)发音词典
文本 ASR, TTS, 语言建模N/A107,000个单词 添加到咨询列表dan_DNK_PHONAppen Global发音词典丹麦语丹麦N/AN/AN/AN/A107 000N/AtextD
86
丹麦(丹麦)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风53小时 添加到咨询列表Speecon DanishNuance有定稿的录音丹麦语丹麦混合(办公室/娱乐场所/车内/公共场所)600(550个成年语料提供者及50个儿童语料提供者)4170 000可根据要求提供16alaw数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料
D
160
丹麦(丹麦)词性词典
文本 ASR, TTS, 语言建模N/A100,000个单词 添加到咨询列表dan_DNK_POSAppen Global词性词典丹麦语丹麦N/AN/AN/AN/A100 000N/AtextD
247
乌克兰语(乌克兰)发音词典
文本 ASR, TTS, 语言建模N/A5,000个单词 添加到咨询列表ukr_UKR_PHONAppen Global发音词典乌克兰语乌克兰N/AN/AN/AN/A5 000N/AtextW
133
乌尔都语NER语料库
文本 NER, 内容分类, 搜索引擎N/A20,634个句子 添加到咨询列表URD_NER001Appen GlobalNER乌尔都语巴基斯坦N/AN/AN/A20 634可根据要求提供N/AtextW
101
乌尔都语(印度/巴基斯坦)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话47小时 添加到咨询列表URD_ASR001Appen Global对话录音乌尔都语印度-巴基斯坦混合1 0002可根据要求提供10 8718wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
W
248
乌尔都语(巴基斯坦)发音词典
文本 ASR, TTS, 语言建模N/A40,000个单词 添加到咨询列表urd_PAK_PHONAppen Global发音词典乌尔都语巴基斯坦N/AN/AN/AN/A40 000N/AtextW
249
乌尔都语(巴基斯坦)词性词典
文本 ASR, TTS, 语言建模N/A12,000个单词 添加到咨询列表urd_PAK_POSAppen Global词性词典乌尔都语巴基斯坦N/AN/AN/AN/A12 000N/AtextW
265
他加禄语语音数据库
音频 ASR, 对话式AI, 语音分析电话录音68.25小时 添加到咨询列表Tagalo_ASR001_CNAppen China语料朗读他加禄语菲律宾低背景噪音(家庭/办公室)841NANA16ulaw,alaw覆盖地区:菲律宾 单人录制大约4800s(500个句子),每个句子在3到10秒之间。内容为单人朗读所给语料。以电话录音实现,要求设备的多样化:手机、扬声器、固定电话、耳机。T
194
伊博语(尼日利亚)发音词典
文本 ASR, TTS, 语言建模N/A30,000个单词 添加到咨询列表ibo_NGA_PHONAppen Global发音词典伊博语奈及利亚N/AN/AN/AN/A30 000N/AtextY
178
伊朗波斯语(伊朗)发音词典
文本 ASR, TTS, 语言建模N/A80,000个单词 添加到咨询列表pes_IRN_PHONAppen Global发音词典波斯语伊朗N/AN/AN/AN/A80 000N/AtextY
179
伊朗波斯语(伊朗)词性词典
文本 ASR, TTS, 语言建模N/A1,400,000个单词 添加到咨询列表pes_IRN_POSAppen Global词性词典波斯语伊朗N/AN/AN/AN/A1 400 000N/AtextY
224
俄罗斯(Russia)发音词典
文本 ASR, TTS, 语言建模N/A115,000个单词 添加到咨询列表rus_RUS_PHONAppen Global发音词典俄语俄国N/AN/AN/AN/A115 000N/AtextE
78
俄罗斯(Russia)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话37小时 添加到咨询列表RUS_ASR001Appen Global对话录音俄语俄国低背景噪音2002可根据要求提供28 2848alaw或wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
E
80
俄罗斯(Russia)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话180小时 添加到咨询列表Russian SpeechDat(E) DatabaseNuance有定稿的录音俄语俄国低背景噪音2 5001112 000可根据要求提供8alaw数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制45个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
E
79
俄罗斯(Russia)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风31小时 添加到咨询列表RUS_ASR002Global Phone有定稿的录音俄语俄国低背景噪音(家庭/办公室)115112 205可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
E
92
俄罗斯(Russia)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风46小时 添加到咨询列表Speecon Russian DatabaseNuance有定稿的录音俄语俄国混合(办公室/娱乐场所/车内/公共场所)600(550个成年语料提供者及50个儿童语料提供者)4170 000可根据要求提供16可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料
E
225
俄罗斯(Russia)词性词典
文本 ASR, TTS, 语言建模N/A100,000个单词 添加到咨询列表rus_RUS_POSAppen Global词性词典俄语俄国N/AN/AN/AN/A100 000N/AtextE
129
俄语NER语料库
文本 NER, 内容分类, 搜索引擎N/A29,888个句子 添加到咨询列表RUS_NER001Appen GlobalNER俄语俄国N/AN/AN/A29 888可根据要求提供N/AtextE
269
俄语(俄国)自由说语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风30.89小时 添加到咨询列表RUS_ASR003_CNAppen China自由说俄语(俄国)俄国低背景噪音(家庭/办公室)321NANA16wavE
151
保加利亚语(保加利亚)发音词典
文本 ASR, TTS, 语言建模N/A55,000个单词 添加到咨询列表bul_BGR_PHONAppen Global发音词典保加利亚语保加利亚N/AN/AN/AN/A55 000N/AtextB
6
保加利亚语(保加利亚)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话38小时 添加到咨询列表BUL_ASR001Appen Global对话录音保加利亚语保加利亚低背景噪音(家庭/办公室)2172可根据要求提供22 3428alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
B
107
保加利亚语(保加利亚)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风22小时 添加到咨询列表BUL_ASR002Global Phone有定稿的录音保加利亚语保加利亚低背景噪音(家庭/办公室)7718 674可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
B
157
克罗地亚语(克罗地亚)发音词典
文本 ASR, TTS, 语言建模N/A20,000个单词 添加到咨询列表hrv_HRV_PHONAppen Global发音词典克罗地亚语克罗地亚N/AN/AN/AN/A20 000N/AtextK
8
克罗地亚语(克罗地亚)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话39小时 添加到咨询列表CRO_ASR001Appen Global对话录音克罗地亚语克罗地亚低背景噪音(家庭/办公室)2002可根据要求提供23 9198alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
K
112
克罗地亚语(克罗地亚)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人移动电话263小时 添加到咨询列表CRO_ASR003_CNAppen China有定稿的录音克罗地亚语克罗地亚低背景噪音(家庭/办公室)243173 467136 14016wav数据集已完全转录K
9
克罗地亚语(克罗地亚)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风11小时 添加到咨询列表CRO_ASR002Global Phone有定稿的录音克罗地亚语克罗地亚低背景噪音(家庭/办公室)9414 499可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
K
261
内蒙古方言(中国)双人对话式录音语料库
音频 ASR, 对话式AI, 语音分析移动电话100小时 添加到咨询列表NMG_ASR001_CNAppen China对话录音内蒙古族语中国低背景噪音(家庭/办公室)2001NANA16wav覆盖地区:通辽 呼和浩特 锡林郭勒盟。 单人发音时长约30分钟,内容为2人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。 数据库只是语音库,不含有转写文字Z
155
加泰罗尼亚语(西班牙)发音词典
文本 ASR, TTS, 语言建模N/A10,000个单词 添加到咨询列表cat_ESP_PHONAppen Global发音词典加泰罗尼亚语西班牙N/AN/AN/AN/A10 000N/AtextJ
193
匈牙利语(匈牙利)发音词典
文本 ASR, TTS, 语言建模N/A500个单词 添加到咨询列表hun_HUN_PHONAppen Global发音词典匈牙利语匈牙利N/AN/AN/AN/A500N/AtextX
115
匈牙利语(匈牙利)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人移动电话286小时 添加到咨询列表HUN_ASR001_CNAppen China有定稿的录音匈牙利语匈牙利低背景噪音(家庭/办公室)254194 031201 92116wav数据集已完全转录X
45
匈牙利语(匈牙利)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话65小时 添加到咨询列表Hungarian SpeechDat(E)Nuance有定稿的录音匈牙利语匈牙利低背景噪音1 000148 000可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
X
200
卡纳达语(印度)发音词典
文本 ASR, TTS, 语言建模N/A35,000个单词 添加到咨询列表kan_IND_PHONAppen Global发音词典坎那达语印度N/AN/AN/AN/A35 000N/AtextK
54
卡纳达语(印度)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话15小时 添加到咨询列表KAN_ASR001Appen Global对话录音坎那达语印度混合1782可根据要求提供15 6608alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
K
105
卡纳达语(印度)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话57小时 添加到咨询列表KAN_ASR001AAppen Global对话录音坎那达语印度混合1 0002可根据要求提供15 6608alaw数据集中大约25%的会话被转录并加盖了时间戳,可以提供完整的转录文本
数据库附带一个包含所有转录词的发音词典
K
162
卢奥语(肯尼亚)发音词典
文本 ASR, TTS, 语言建模N/A20,000个单词 添加到咨询列表luo_KEN_PHONAppen Global发音词典卢奥语肯尼亚N/AN/AN/AN/A20 000N/AtextL
284
印地语自由说语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风2.65小时 添加到咨询列表HINDI_ASR001_CNAppen China自由说印地语印度低背景噪音(家庭/办公室)6 NANA16wavY
192
印地语(印度)发音词典
文本 ASR, TTS, 语言建模N/A35,000个单词 添加到咨询列表hin_IND_PHONAppen Global发音词典印地语印度N/AN/AN/AN/A35 000N/AtextY
44
印地语(印度)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话32小时 添加到咨询列表HIN_ASR002Appen Global对话录音印地语印度混合9962可根据要求提供12 2668wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
在大多数的通话中,对话双方的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话被收集并转录了
Y
43
印地语(印度)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话224小时 添加到咨询列表HIN_ASR001Appen Global有定稿的录音印地语印度低背景噪音1 920196 0009 8538alaw完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典[SAMPA]
每个发音人录制50个语料,语料包括数字,自然数,个人、地点和企业名称,网址,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
Y
147
印尼文(印度尼西亚)发音词典
文本 ASR, TTS, 语言建模N/A95,000个单词 添加到咨询列表ind_IDN_PHONAppen Global发音词典印度尼西亚语印度尼西亚N/AN/AN/AN/A95 000N/AtextY
148
印尼文(印度尼西亚)词性词典
文本 ASR, TTS, 语言建模N/A10,000个单词 添加到咨询列表ind_IDN_POSAppen Global词性词典印度尼西亚语印度尼西亚N/AN/AN/AN/A10 000N/AtextY
286
印尼语自由说语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风3.77小时 添加到咨询列表IND_ASR001_CNAppen China自由说印尼语印尼低背景噪音(家庭/办公室)7 NANA16wavY
3
印尼语(印度尼西亚)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话31小时 添加到咨询列表BAH_ASR001Appen Global对话录音印度尼西亚语印度尼西亚低背景噪音1 0022可根据要求提供11 4808wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
对于很大比例的电话录音,只有一半的对话被收集和转录
Y
279
台湾自由说语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风3.12小时 添加到咨询列表TAIWAN_ASR001_CNAppen China自由说台湾中国低背景噪音(家庭/办公室)10 NANA16wavZ
251
吴语(中国)发音词典
文本 ASR, TTS, 语言建模N/A10,000个单词 添加到咨询列表wuu_CHN_PHONAppen Global发音词典吴语中国N/AN/AN/AN/A10 000N/AtextW
201
哈萨克语(哈萨克斯坦)发音词典
文本 ASR, TTS, 语言建模N/A30,000个单词 添加到咨询列表kaz_KAZ_PHONAppen Global发音词典哈萨克语哈萨克斯坦N/AN/AN/AN/A30 000N/AtextH
283
四川语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风3.86小时 添加到咨询列表SICHUAN_ASR001_CNAppen China语料朗读四川中国低背景噪音(家庭/办公室)8 NANA16wavZ
245
土耳其语(土耳其)发音词典
文本 ASR, TTS, 语言建模N/A255,000个单词 添加到咨询列表tur_TUR_PHONAppen Global发音词典土耳其语土耳其N/AN/AN/AN/A255 000N/AtextT
98
土耳其语(土耳其)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话41小时 添加到咨询列表TUR_ASR001Appen Global对话录音土耳其语土耳其低背景噪音2002可根据要求提供32 3868alaw或wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
T
117
土耳其语(土耳其)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人移动电话739小时 添加到咨询列表TUR_ASR003_CNAppen China有定稿的录音土耳其语土耳其低背景噪音(家庭/办公室)6641185 706215 13516wav数据集已完全转录T
65
土耳其语(土耳其)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话和固定电话118小时 添加到咨询列表OrienTel Turkish DatabaseNuance有定稿的录音土耳其语土耳其低背景噪音1 700176 500可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制45个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
T
246
土耳其语(土耳其)词性词典
文本 ASR, TTS, 语言建模N/A257,000个单词 添加到咨询列表tur_TUR_POSAppen Global词性词典土耳其语土耳其N/AN/AN/AN/A257 000N/AtextT
99
土耳其语(土耳其)麦克风录音数据库
音频 ASR, 虚拟助手, 聊天机器人麦克风17小时 添加到咨询列表TUR_ASR002Global Phone有定稿的录音土耳其语土耳其低背景噪音(家庭/办公室)10016 950可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
T
240
塔加洛语(菲律宾)发音词典
文本 ASR, TTS, 语言建模N/A30,000个单词 添加到咨询列表tgl_PHL_PHONAppen Global发音词典塔加拉族语菲律宾N/AN/AN/AN/A30 000N/AtextT
226
塞尔维亚语(塞尔维亚)发音词典
文本 ASR, TTS, 语言建模N/A15,000个单词 添加到咨询列表srp_SRB_PHONAppen Global发音词典塞尔维亚语塞尔维亚N/AN/AN/AN/A15 000N/AtextS
239
塞海蒂语(孟加拉国-印度)发音词典
文本 ASR, TTS, 语言建模N/A22,000个单词 添加到咨询列表syl_BGD -IND_PHONAppen Global发音词典塞海蒂语孟加拉国-印度N/AN/AN/AN/A22 000N/AtextS
264
外国人说中文语音数据库
音频 ASR, 对话式AI, 语音分析移动电话200小时 添加到咨询列表FOREIGNER_ASR001_CNAppen China有定稿的录音中文(外国人)多国低背景噪音(家庭/办公室)200NANA16wav数据库包含200小时的外国人说中文 人数:200人 覆盖国家: 美国(不含加州和伊利诺伊州),印度,菲律宾,日本,加拿大,泰国,澳大利亚,越南,俄罗斯,土耳其,埃及,印度尼西亚。 注:数据不包含韩国,巴西境外数据同时也不包含未成年人录制数据。 单人发音时长约1小时,单句时长3-10秒之间 内容为单人朗读形式 采集工具为手机麦克风 单声道 采样率 16KHZ 录音环境为 家庭/办公室。数据为脱敏数据,编号和录制人信息会打乱。Z
266
多姿态多光线人像图片数据库
图像 图片标签识别训练手机/照相机680张 添加到咨询列表IMG_BODY_POSE_CNAppen China物体图片N/A多国多种光线NANANANANAjpg共680张,多人室内67张,多人室外强光11张,多人室外弱光4张,单人室内550张,单人室外强光7张,单人室外弱光41张Z
263
多标签图片数据库
图像 图片标签识别训练手机/照相机2196 张 添加到咨询列表IMG_TAG_CNAppen China物体图片N/AN/A多种光线NANANANANAjpg共2196张多场景图片样例库,可做速成库。分类为:KTV :50张,百货商店 : 55张,办公室: 100张;博物馆:63张;电器 :55张;海洋 : 191张;汽车: 50张;手提包 :35张;夜景:54张;运动器材:54张;便利店 :34张;餐厅 :54张;车窗风景 :62张;宠物 : 82张;船 50张;动物园,70张;服装店:53张;海滩 :95张;机场 : 65张;健身房 :47张;景点 :77张;人群 :67张;沙漠 : 73张;沙滩 :68张;山区 :54张;商场 :55张;树 :85张;天空 : 102张;雪景 :71张;雪山 : 53张;夜景 :78张;游乐场 :94张。Z
215
奥里雅语(印度)发音词典
文本 ASR, TTS, 语言建模N/A15,000个单词 添加到咨询列表ori_IND_PHONAppen Global发音词典奥里雅语印度N/AN/AN/AN/A15 000N/AtextA
120
婴幼儿啼哭语料库
音频 婴儿监控器, 安全及其他消费者应用程序移动电话3小时 添加到咨询列表CRY_ASR001Appen China人声N/A中国低背景噪音(家庭/办公室)1001NANA16wav0到3岁婴儿的哭声,每个录音持续2分钟左右Z
150
孟加拉语(印度)发音词典
文本 ASR, TTS, 语言建模N/A29,000个单词 添加到咨询列表ben_IND_PHONAppen Global发音词典孟加拉语印度N/AN/AN/AN/A29 000N/AtextM
5
孟加拉语(孟加拉国)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话47小时 添加到咨询列表BEN_ASR001Appen Global对话录音孟加拉语孟加拉国混合(车内/路边/家庭/办公室)1 0002可根据要求提供17 9228alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
M
156
宿雾语(菲律宾)发音词典
文本 ASR, TTS, 语言建模N/A20,000个单词 添加到咨询列表ceb_PHL_PHONAppen Global发音词典宿雾语菲律宾N/AN/AN/AN/A20 000N/AtextS
149
巴斯克(西班牙)发音词典
文本 ASR, TTS, 语言建模N/A10,000个单词 添加到咨询列表eus_ESP_PHONAppen Global发音词典巴斯克语西班牙N/AN/AN/AN/A10 000N/AtextB
191
希伯来语(以色列)发音词典
文本 ASR, TTS, 语言建模N/A31,000个单词 添加到咨询列表heb_ISR_PHONAppen Global发音词典希伯来语以色列N/AN/AN/AN/A31 000N/AtextX
42
希伯来语(以色列)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话34小时 添加到咨询列表HEB_ASR001Appen Global对话录音希伯来语以色列低背景噪音2002可根据要求提供19 2508alaw或wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
X
187
希腊语(希腊)发音词典
文本 ASR, TTS, 语言建模N/A5,000个单词 添加到咨询列表ell_GRC_PHONAppen Global发音词典希腊语希腊N/AN/AN/AN/A5 000N/AtextX
114
希腊语(希腊)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人移动电话191小时 添加到咨询列表GRE_ASR001_CNAppen China有定稿的录音希腊语希腊低背景噪音(家庭/办公室)287154 11368 27116wav数据集已完全转录X
152
广东话(中国)发音词典
文本 ASR, TTS, 语言建模N/A37,000个单词 添加到咨询列表yue_CHN_PHONAppen Global发音词典广东话 (粤语)中国N/AN/AN/AN/A37 000N/Atext简体G
153
广东话(中国)发音词典
文本 ASR, TTS, 语言建模N/A40,000个单词 添加到咨询列表yue_CHN_PHONAppen Global发音词典广东话 (粤语)中国N/AN/AN/AN/A40 000N/Atext繁体G
154
广东话(中国)词性词典
文本 ASR, TTS, 语言建模N/A10,000个单词 添加到咨询列表yue_HKG_POSAppen Global词性词典广东话 (粤语)中国N/AN/AN/AN/A10 000N/Atext繁体G
278
广东语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风4.06小时 添加到咨询列表GUANGDONG_ASR001_CNAppen China语料朗读广东中国低背景噪音(家庭/办公室)8 NANA16wavZ
204
库尔曼吉(土耳其)发音词典
文本 ASR, TTS, 语言建模N/A60,000个单词 添加到咨询列表kur_TUR_PHONAppen Global发音词典库尔德语土耳其N/AN/AN/AN/A60 000N/AtextK
267
德语 (德国)自由说语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风20.19小时 添加到咨询列表DEU_ASR004_CNAppen China自由说德语 (德国)德国低背景噪音(家庭/办公室)801NANA16wavD
57
德语(卢森堡)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话33小时 添加到咨询列表Luxembourgish German SpeechDat(II) FDB-500 (FIXED1LG)Nuance有定稿的录音德语卢森堡低背景噪音500126 500可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制53个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
D
64
德语(土耳其)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话和固定电话31小时 添加到咨询列表OrienTel German Spoken by TurkishNuance有定稿的录音德语土耳其低背景噪音300115 600可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制52个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
D
185
德语(德国)发音词典
文本 ASR, TTS, 语言建模N/A146,000个单词 添加到咨询列表deu_DEU_PHONAppen Global发音词典德语德国N/AN/AN/AN/A146 000N/AtextD
14
德语(德国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风16小时 添加到咨询列表DEU_ASR001Appen Global有定稿的录音德语德国低背景噪音(录音棚)127212 7006 82616alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
每个发音人录制100个语料,语料包括数字,自然数,人名,城市名,电话号码,通用指令和特定指令,语音丰富的句子和单词
D
15
德语(德国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风25小时 添加到咨询列表DEU_ASR003Global Phone有定稿的录音德语德国低背景噪音(家庭/办公室)77110 085可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
D
38
德语(德国)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话31小时 添加到咨询列表German SpeechDat (II) FDB-1000Nuance有定稿的录音德语德国低背景噪音(家庭/办公室)988143 000可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制44个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
D
39
德语(德国)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话268小时 添加到咨询列表German SpeechDat(II) FDB-4000Nuance有定稿的录音德语德国低背景噪音(家庭/办公室)4 0001160 000可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制40个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
D
186
德语(瑞士)发音词典
文本 ASR, TTS, 语言建模N/A15,000个单词 添加到咨询列表deu_CHE_PHONAppen Global发音词典德语瑞士N/AN/AN/AN/A15 000N/AtextD
90
德语(瑞士)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风53小时 添加到咨询列表Speecon German (Switzerland) databaseNuance有定稿的录音德语瑞士混合(办公室/娱乐场所/车内/公共场所)600(550个成年语料提供者及50个儿童语料提供者)4170 000可根据要求提供16可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料
D
195
意大利文(意大利)发音词典
文本 ASR, TTS, 语言建模N/A197,000个单词 添加到咨询列表ita_ITA_PHONAppen Global发音词典意大利语意大利N/AN/AN/AN/A197 000N/AtextY
48
意大利文(意大利)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话36小时 添加到咨询列表ITA_ASR003Appen Global对话录音意大利语意大利低背景噪音2002可根据要求提供18 9748alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
Y
46
意大利文(意大利)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风44小时 添加到咨询列表ITA_ASR001Appen Global有定稿的录音意大利语意大利混合200440 0007 31622alaw完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个发音人录制200个语料,语料包括100个命令和特定指令,100个语音丰富的句子
Y
47
意大利文(意大利)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 车载HMI及娱乐设备麦克风47小时 添加到咨询列表ITA_ASR002Appen Global有定稿的录音意大利语意大利混合(车内)103435 87510 36648alaw完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个发音人录制350个语料,语料包括数字,街道名称,通用指令和特定指令,语音丰富的句子和单词
每个发音人录制了1到2段样本,第一段在未熄火的停靠车辆中录制,第二段在以每小时60英里(100 公里 / 小时)的速度行驶的车辆中录制
Y
49
意大利文(意大利)有定稿的麦克风录音语料库
音频 TTS麦克风3小时 添加到咨询列表ITA_TTS001Appen Global有定稿的录音意大利语意大利低背景噪音(录音棚)113 300可根据要求提供22alaw数据集随附一个发音词典,其中包含该数据集中所说的所有单词
每个发音人录制3300条语料,包括语音丰富的句子
Y
50
意大利文(意大利)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话38小时 添加到咨询列表Italian Fixed Network Speech SpeechDat(M) CorpusNuance有定稿的录音意大利语意大利低背景噪音(家庭/办公室)1 000139 000可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制39个语料,语料包含连续和间隔的数字,自然数,金额,拼写单词,时间和日期短语,是/否问题,常见的应用词汇,在短语中的应用词汇以及语音丰富的句子
Y
51
意大利文(意大利)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话228小时 添加到咨询列表Italian SpeechDat(II) FDB-3000Nuance有定稿的录音意大利语意大利低背景噪音(家庭/办公室)3 0401134 000可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制44个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
Y
52
意大利文(意大利)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话103小时 添加到咨询列表Italian SpeechDat(II) MDB-250Nuance有定稿的录音意大利语意大利低背景噪音(家庭/办公室)375119 000可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制51个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
Y
85
意大利文(意大利)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话13小时 添加到咨询列表SpeechDat(M) Italian Mobile Network Speech DatabaseNuance有定稿的录音意大利语意大利低背景噪音(家庭/办公室)342113 500可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制40个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
Y
196
意大利文(意大利)词性词典
文本 ASR, TTS, 语言建模N/A147,000个单词 添加到咨询列表ita_ITA_POSAppen Global词性词典意大利语意大利N/AN/AN/AN/A147 000N/AtextY
290
意大利自由说语语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风3.8小时 添加到咨询列表ITA_ASR001_CNAppen China自由说意大利语意大利低背景噪音(家庭/办公室)6 NANA16wavY
244
托皮辛(巴布亚新几内亚)发音词典
文本 ASR, TTS, 语言建模N/A10,000个单词 添加到咨询列表tpi_PNG_PHONAppen Global发音词典托克皮辛语巴布亚新几内亚N/AN/AN/AN/A10 000N/AtextT
213
挪威语(挪威)发音词典
文本 ASR, TTS, 语言建模N/A115,000个单词 添加到咨询列表nor_NOR_PHONAppen Global发音词典挪威语挪威N/AN/AN/AN/A115 000N/AtextN
214
挪威语(挪威)词性词典
文本 ASR, TTS, 语言建模N/A3,000个单词 添加到咨询列表nor_NOR_POSAppen Global词性词典挪威语挪威N/AN/AN/AN/A3 000N/AtextN
158
捷克文(捷克共和国)发音词典
文本 ASR, TTS, 语言建模N/A50,000个单词 添加到咨询列表ces_CZE_PHONAppen Global发音词典捷克语捷克共和国N/AN/AN/AN/A50 000N/AtextJ
11
捷克文(捷克共和国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话93小时 添加到咨询列表Czech SpeechDat(E) DatasetNuance有定稿的录音捷克语捷克共和国低背景噪音1 000152 000可根据要求提供8alaw数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制52个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
J
10
捷克文(捷克共和国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风31小时 添加到咨询列表CZE_ASR001Global Phone有定稿的录音捷克语捷克共和国低背景噪音(家庭/办公室)102112 425可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
J
81
斯洛伐克(Slovakia)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话65小时 添加到咨询列表Slovak SpeechDat(E) DatabaseNuance有定稿的录音斯洛伐克语斯洛伐克低背景噪音1 000148 000可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
S
82
斯洛文尼亚语(Slovenian)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话76小时 添加到咨询列表Slovenian SpeechDat(II) FDB-1000Nuance有定稿的录音斯洛维尼亚语斯洛文尼亚低背景噪音(家庭/办公室)1 000140 000可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制大约40个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
S
236
斯瓦希里语(肯尼亚)发音词典
文本 ASR, TTS, 语言建模N/A66,000个单词 添加到咨询列表swa_KEN_PHONAppen Global发音词典斯瓦西里语肯尼亚N/AN/AN/AN/A66 000N/AtextS
76
旁遮普语(巴基斯坦)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话20小时 添加到咨询列表PAP_ASR001Appen Global对话录音旁遮普语巴基斯坦低背景噪音2052可根据要求提供7 2988alaw数据集已完全转录并加盖了时间戳
数据集附带一个包含所有转录词的发音词典
在71%的对话中,对话双方(呼入者和呼出者)的说话内容都被收集转录了,在剩下的29%的对话中,只有一半的对话被收集并转录了
P
132
日语NER语料库
文本 NER, 内容分类, 搜索引擎N/A20,629个句子 添加到咨询列表JPY_NER001Appen GlobalNER日语日本N/AN/AN/A20 629可根据要求提供N/AtextR
285
日语自由说语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风3.38小时 添加到咨询列表JAP_ASR001_CNAppen China自由说日语日本低背景噪音(家庭/办公室)6 NANA16wavR
197
日语(日本)发音词典
文本 ASR, TTS, 语言建模N/A262,000个单词 添加到咨询列表jpn_JPN_PHONAppen Global发音词典日语日本N/AN/AN/AN/A262 000N/AtextR
53
日语(日本)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风33小时 添加到咨询列表JPN_ASR001Global Phone有定稿的录音日语日本低背景噪音(家庭/办公室)144113 067可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
R
91
日语(日本)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风57小时 添加到咨询列表Speecon JapaneseNuance有定稿的录音日语日本混合(办公室/娱乐场所/车内/公共场所)600(550个成年语料提供者及50个儿童语料提供者)4170 000可根据要求提供16可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料
R
198
日语(日本)词性词典
文本 ASR, TTS, 语言建模N/A265,000个单词 添加到咨询列表jpn_JPN_POSAppen Global词性词典日语日本N/AN/AN/AN/A265 000N/AtextR
281
昆明语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风2.53小时 添加到咨询列表KUNMING_ASR001_CNAppen China语料朗读昆明中国低背景噪音(家庭/办公室)8 NANA16wavZ
216
普什图(阿富汗)发音词典
文本 ASR, TTS, 语言建模N/A65,000个单词 添加到咨询列表pus_AFG_PHONAppen Global发音词典普什图语阿富汗N/AN/AN/AN/A65 000N/AtextP
68
普什图(阿富汗)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话55小时 添加到咨询列表PAS_ASR001Appen Global对话录音普什图语阿富汗低背景噪音9672可根据要求提供13 6338wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
在大多数的通话中,对话双方的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话被收集并转录了
P
69
普什图(阿富汗)对话式麦克风录音语料库
音频 ASR, 对话式AI, 语音分析麦克风39小时 添加到咨询列表PAS_ASR002Appen Global对话录音普什图语阿富汗低背景噪音402可根据要求提供9 48016wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
转录文本可全部被翻译成法文, 作为可选的额外购买项
平均通话时间为120分钟,每则通话中由一名发言人担任采访者,另一名发言人担任受访者,模仿类似于TransTAC风格的场景(例如民政事务询问,检查站询问等)
面试官出现在不止一组对话中,但每组对话中的被面试者都是唯一的
P
70
普什图(阿富汗)广播录音数据库
音频 ASR, 自动字幕, 关键字检索麦克风51小时 添加到咨询列表PAS_BRC001Appen Global广播录音普什图语阿富汗低背景噪音(录音棚)N/A1可根据要求提供可根据要求提供N/Awav数据集已完全转录并加上时间戳
数据集主要是语音,不包括音乐或广告
数据类型包括:脱口秀,访谈,新闻广播(不包括主持人阅读的新闻)
P
130
普通话NER语料库
文本 NER, 内容分类, 搜索引擎N/A17,313个句子 添加到咨询列表MAC_NER001Appen GlobalNER普通话中国N/AN/AN/A17 313可根据要求提供N/AtextP
58
普通话(中国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话和固定电话323小时 添加到咨询列表MAC_ASR001Appen Global有定稿的录音普通话中国混合2 0001200 0007 1458alaw完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典[SAMPA]
每个发音人录制98个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令(从215个指令中挑选),语音丰富的句子和单词
P
59
普通话(中国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风26小时 添加到咨询列表MAC_ASR002Global Phone有定稿的录音普通话中国低背景噪音(家庭/办公室)132110 225可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
P
209
普通话(简体)(中国)发音词典
文本 ASR, TTS, 语言建模N/A35,000个单词 添加到咨询列表zho_CHN_PHONAppen Global发音词典中文(简体)中国N/AN/AN/AN/A35 000N/AtextP
210
普通话(繁体)(台湾)发音词典
文本 ASR, TTS, 语言建模N/A50,000个单词 添加到咨询列表zho_TWN_PHONAppen Global发音词典中文(繁体)台湾N/AN/AN/AN/A50 000N/AtextP
273
杭州方言语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风2.49小时 添加到咨询列表HANGZHOU_ASR001_CNAppen China语料朗读杭州方言中国低背景噪音(家庭/办公室)10 NANA16wavZ
259
武汉方言(中国)多人对话式录音语料库
音频 ASR, 对话式AI, 语音分析录音笔/麦克风42.7小时 添加到咨询列表WUHAN_ASR001_CNAppen China对话录音武汉方言中国低背景噪音(家庭/办公室)1351NANA16wav覆盖地区: 武汉市下辖的江岸、江汉、硚口、汉阳、武昌五区 注:数据不包含东北郊区口音数据以及未成年人录制数据。 单人发音时长约40分钟,单个语音对话20~30分钟之间 内容为2~5人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。 数据库只是语音库,不含有转写文字Z
260
武汉方言(中国)多人对话式录音语料库
音频 ASR, 对话式AI, 语音分析移动电话58.1小时 添加到咨询列表WUHAN_ASR002_CNAppen China对话录音武汉方言中国低背景噪音(家庭/办公室)1801NANA8wav覆盖地区:武汉市下辖的江岸、江汉、硚口、汉阳、武昌五区 注:数据不包含东北郊区口音数据以及未成年人录制数据。 单人发音时长约40分钟,单个语音对话20~30分钟之间 内容为2~5人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。 数据库只是语音库,不含有转写文字Z
280
武汉语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风3.19小时 添加到咨询列表WUHAN_ASR003_CNAppen China语料朗读武汉中国低背景噪音(家庭/办公室)8 NANA16wavZ
275
河南语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风2.9小时 添加到咨询列表HENAN_ASR001_CNAppen China语料朗读河南中国低背景噪音(家庭/办公室)7 NANA16wavZ
268
法语 (法国)自由说语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风16.6小时 添加到咨询列表FRA_ASR004_CNAppen China自由说法语 (法国)法国低背景噪音(家庭/办公室)961NANA16wavF
182
法语(加拿大)发音词典
文本 ASR, TTS, 语言建模N/A67,000个单词 添加到咨询列表fra_CAN_PHONAppen Global发音词典法语加拿大N/AN/AN/AN/A67 000N/AtextF
32
法语(加拿大)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话9小时 添加到咨询列表FRC_ASR003Appen Global对话录音法语加拿大混合682可根据要求提供6 0228alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
平均通话时长为10到15分钟
在大多数通话中,只有一半的对话被收集并转录了,但是对于一小部分的通话,对话双方(呼入者和呼出者)的说话内容都被收集并转录了
F
30
法语(加拿大)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话131小时 添加到咨询列表FRC_ASR001Appen Global有定稿的录音法语加拿大混合1 0001100 00011 6978alaw完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典[SAMPA]
每个发音人录制100个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
F
31
法语(加拿大)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风46小时 添加到咨询列表FRC_ASR002Appen Global有定稿的录音法语加拿大低背景噪音(家庭/办公室)150122 50010 75516alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
每个发音人录制150个语料,语料包含数字,数字串(随机生成的),地址,语音丰富的句子和单词
F
56
法语(卢森堡)电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话45小时 添加到咨询列表Luxembourgish French SpeechDat(II) FDB-500 (FIXED1LF)Nuance有定稿的录音法语卢森堡低背景噪音614132 000可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制53个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
F
4
法语(比利时)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话76小时 添加到咨询列表Belgian French SpeechDat(II) FDB-1000 (FIXED1BF)Nuance有定稿的录音法语比利时低背景噪音1 000153 000可根据要求提供8alaw数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制53个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令
F
183
法语(法国)发音词典
文本 ASR, TTS, 语言建模N/A112,000个单词 添加到咨询列表fra_FRA_PHONAppen Global发音词典法语法国N/AN/AN/AN/A112 000N/AtextF
36
法语(法国)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话25小时 添加到咨询列表FRF_ASR001Appen Global对话录音法语法国低背景噪音5632可根据要求提供11 9228alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
在大多数的通话中,对话双方的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话被收集并转录了
F
33
法语(法国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话41小时 添加到咨询列表French SpeechDat(II) FDB-1000Nuance有定稿的录音法语法国低背景噪音(家庭/办公室)1 017148 000可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
F
34
法语(法国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话305小时 添加到咨询列表French SpeechDat(II) FDB-5000Nuance有定稿的录音法语法国低背景噪音5 0401237 000可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制47个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
F
37
法语(法国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风26小时 添加到咨询列表FRF_ASR003Global Phone有定稿的录音法语法国低背景噪音(家庭/办公室)98110 273可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
F
184
法语(法国)词性词典
文本 ASR, TTS, 语言建模N/A95,000个单词 添加到咨询列表fra_FRA_POSAppen Global词性词典法语法国N/AN/AN/AN/A95 000N/AtextF
35
法语(法国)车内录音语料库
音频 ASR, 虚拟助手, 车载HMI及娱乐设备麦克风和移动电话 添加到咨询列表French SpeechDat-CarNuance有定稿的录音法语法国混合(车内)300537 500可根据要求提供16和8可根据要求提供数据集已完全转录,并附有发音词典和验证报告
每个发音人录制大约125个语料,语料包含数字,自然数,字母串,个人、地点和企业名称(一些是自由发挥的),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的语料
F
141
法语(阿尔及利亚)发音词典
文本 ASR, TTS, 语言建模N/A4,000个单词 添加到咨询列表fra_DZA_PHONAppen Global发音词典法语阿尔及利亚N/AN/AN/AN/A4 000N/Atext阿拉伯文字F
217
波兰语(波兰)发音词典
文本 ASR, TTS, 语言建模N/A40,000个单词 添加到咨询列表pol_POL_PHONAppen Global发音词典波兰语波兰N/AN/AN/AN/A40 000N/AtextB
116
波兰语(波兰)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人移动电话293小时 添加到咨询列表POL_ASR002_CNAppen China有定稿的录音波兰语波兰低背景噪音(家庭/办公室)3531106 674168 54416wav数据集已完全转录B
72
波兰语(波兰)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手仅固定电话78小时 添加到咨询列表Polish SpeechDat(E) DatabaseNuance有定稿的录音波兰语波兰低背景噪音1 000148 000可根据要求提供8可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
B
71
波兰语(波兰)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风25小时 添加到咨询列表POL_ASR001Global Phone有定稿的录音波兰语波兰低背景噪音(家庭/办公室)99110 130可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
B
218
波兰语(波兰)词性词典
文本 ASR, TTS, 语言建模N/A4,000个单词 添加到咨询列表pol_POL_POSAppen Global词性词典波兰语波兰N/AN/AN/AN/A4 000N/AtextB
131
波斯语NER语料库
文本 NER, 内容分类, 搜索引擎N/A19,584个句子 添加到咨询列表FAR_NER001Appen GlobalNER波斯语伊朗N/AN/AN/A19 584可根据要求提供N/AtextB
28
波斯语(伊朗)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话30小时 添加到咨询列表FAR_ASR002Appen Global对话录音波斯语伊朗混合1 0002可根据要求提供12 3588wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
B
27
波斯语(伊朗)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话和固定电话85小时 添加到咨询列表FAR_ASR001Appen Global有定稿的录音波斯语伊朗混合789138 4008 7168alaw完全转录为OrienTel类型
数据集附带一个包含所有转录词的发音词典[SAMPA]
每个发音人录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
B
241
泰卢固语(印度)发音词典
文本 ASR, TTS, 语言建模N/A50,000个单词 添加到咨询列表tel_IND_PHONAppen Global发音词典泰卢固语印度N/AN/AN/AN/A50 000N/AtextT
242
泰米尔文(印度)发音词典
文本 ASR, TTS, 语言建模N/A105,000个单词 添加到咨询列表tam_IND_PHONAppen Global发音词典泰米尔语印度N/AN/AN/AN/A105 000N/AtextT
271
泰语自由说语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风2.95小时 添加到咨询列表THA_ASR002_CNAppen China自由说泰语(泰国)泰国低背景噪音(家庭/办公室)  NANA17wavT
123
泰语(泰国)印刷文本OCR
图像 文件处理, 文件搜索照相机1219张图片 添加到咨询列表IMG_OCR_THA_CNAppen ChinaOCR泰语泰国不同光线10NANANANAjpg包含文字的图像,例如购物收据,票据,发票,出租车发票等等T
243
泰语(泰国)发音词典
文本 ASR, TTS, 语言建模N/A30,000个单词 添加到咨询列表tha_THA_PHONAppen Global发音词典泰语泰国N/AN/AN/AN/A30 000N/AtextT
97
泰语(泰国)麦克风录音数据库
音频 ASR, 虚拟助手, 聊天机器人麦克风28小时 添加到咨询列表THA_ASR001Global Phone有定稿的录音泰语泰国低背景噪音(家庭/办公室)98114 039可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
T
189
海地克里奥尔语(海地)发音词典
文本 ASR, TTS, 语言建模N/A15,000个单词 添加到咨询列表hat_HTI_PHONAppen Global发音词典海地克里奥尔语海地N/AN/AN/AN/A15 000N/AtextH
252
湘语(中国)发音词典
文本 ASR, TTS, 语言建模N/A10,000个单词 添加到咨询列表hsn_CHN_PHONAppen Global发音词典湘语中国N/AN/AN/AN/A10 000N/AtextX
199
爪哇语(印度尼西亚)发音词典
文本 ASR, TTS, 语言建模N/A20,000个单词 添加到咨询列表jav_IDN_PHONAppen Global发音词典爪哇语印度尼西亚N/AN/AN/AN/A20 000N/AtextG
237
瑞典文(瑞典)发音词典
文本 ASR, TTS, 语言建模N/A100,000个单词 添加到咨询列表swe_SWE_PHONAppen Global发音词典瑞典语瑞典N/AN/AN/AN/A100 000N/AtextR
238
瑞典文(瑞典)词性词典
文本 ASR, TTS, 语言建模N/A105,000个单词 添加到咨询列表swe_SWE_POSAppen Global词性词典瑞典语瑞典N/AN/AN/AN/A105 000N/AtextR
94
瑞典(瑞典/芬兰)麦克风录音数据库
音频 ASR, 虚拟助手, 聊天机器人麦克风30小时 添加到咨询列表SWE_ASR001Global Phone有定稿的录音瑞典语瑞典-芬兰低背景噪音(家庭/办公室)98111 816可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
R
188
瓜拉尼语(巴拉圭)发音词典
文本 ASR, TTS, 语言建模N/A35,000个单词 添加到咨询列表grn_PRY_PHONAppen Global发音词典瓜拉尼语巴拉圭N/AN/AN/AN/A35 000N/AtextG
253
祖鲁人(南非)发音词典
文本 ASR, TTS, 语言建模N/A75,000个单词 添加到咨询列表zul_ZAF_PHONAppen Global发音词典祖鲁语南非N/AN/AN/AN/A75 000N/AtextZ
206
立陶宛语(立陶宛)发音词典
文本 ASR, TTS, 语言建模N/A60,000个单词 添加到咨询列表lit_LTU_PHONAppen Global发音词典立陶宛语立陶宛N/AN/AN/AN/A60 000N/AtextL
122
简体中文印刷文本OCR
图像 文件处理, 文件搜索照相机200张图片 添加到咨询列表IMG_OCR_MAC_CNAppen ChinaOCRN/A中国不同光线30NANANANAjpg每张图片中的文字均被线条边框所标记
包含大量中文的图像,例如书籍,出版物,海报,收据,PPT以及印刷品等等
Z
228
索拉尼(伊拉克)发音词典
文本 ASR, TTS, 语言建模N/A25,000个单词 添加到咨询列表kur_IRQ_PHONAppen Global发音词典索马里语伊拉克N/AN/AN/AN/A25 000N/AtextS
227
索马里(索马里)发音词典
文本 ASR, TTS, 语言建模N/A76,000个单词 添加到咨询列表som_SOM_PHONAppen Global发音词典索马里语索马里N/AN/AN/AN/A76 000N/AtextS
83
索马里(索马里)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话50小时 添加到咨询列表SOM_ASR001Appen Global对话录音索马里语索马里低背景噪音1 0002可根据要求提供23 2178alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
S
262
维吾尔方言(中国)双人对话式录音语料库
音频 ASR, 对话式AI, 语音分析移动电话122小时 添加到咨询列表WWE_ASR001_CNAppen China对话录音维吾尔族语中国低背景噪音(家庭/办公室)2311NANA16wav覆盖地区: 和田方言,中央方言。 单人发音时长约30分钟,内容为2人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。 数据库只是语音库,不含有转写文字Z
274
维语语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风3.9小时 添加到咨询列表WWE_ASR002_CNAppen China语料朗读维语中国低背景噪音(家庭/办公室)N/A NANA16wav主题有歌曲,赛事,游戏Z
223
罗马尼亚语(罗马尼亚)发音词典
文本 ASR, TTS, 语言建模N/A15,000个单词 添加到咨询列表ron_ROU_PHONAppen Global发音词典罗马尼亚语罗马尼亚N/AN/AN/AN/A15 000N/AtextL
77
罗马尼亚语(罗马尼亚)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话37小时 添加到咨询列表ROM_ASR001Appen Global对话录音罗马尼亚语罗马尼亚低背景噪音2002可根据要求提供16 6588alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
L
205
老挝(老挝)发音词典
文本 ASR, TTS, 语言建模N/A9,000个单词 添加到咨询列表lao_LAO_PHONAppen Global发音词典老挝语老挝N/AN/AN/AN/A9 000N/AtextL
124
芬兰语(芬兰)印刷文本OCR
图像 文件处理, 文件搜索照相机7293张图片 添加到咨询列表IMG_OCR_FIN_CNAppen ChinaOCR芬兰语芬兰不同光线4NANANANAjpg包含文字的图像,例如广告牌,产品外包装,标志牌,杂志以及菜单等等F
180
芬兰语(芬兰)发音词典
文本 ASR, TTS, 语言建模N/A85,000个单词 添加到咨询列表fin_FIN_PHONAppen Global发音词典芬兰语芬兰N/AN/AN/AN/A85 000N/AtextF
181
芬兰语(芬兰)词性词典
文本 ASR, TTS, 语言建模N/A10,000个单词 添加到咨询列表fin_FIN_POSAppen Global词性词典芬兰语芬兰N/AN/AN/AN/A10 000N/AtextF
272
苏州方言语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风2.84小时 添加到咨询列表SUZHOU_ASR001_CNAppen China语料朗读苏州方言中国低背景噪音(家庭/办公室)8 NANA16wavZ
166
英文(加拿大)发音词典
文本 ASR, TTS, 语言建模N/A50,000个单词 添加到咨询列表eng_CAN_PHONAppen Global发音词典英语加拿大N/AN/AN/AN/A50 000N/AtextY
19
英文(加拿大)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话和固定电话144小时 添加到咨询列表ENC_ASR001Appen Global有定稿的录音英语加拿大混合1 000199 00012 4838alaw或wav完全转录为SALA II/SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个发音人录制99个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
Y
167
英文(加拿大)词性词典
文本 ASR, TTS, 语言建模N/A3,000个单词 添加到咨询列表eng_CAN_POSAppen Global词性词典英语加拿大N/AN/AN/AN/A3 000N/AtextY
170
英文(印度)发音词典
文本 ASR, TTS, 语言建模N/A60,000个单词 添加到咨询列表eng_IND_PHONAppen Global发音词典英语印度N/AN/AN/AN/A60 000N/AtextY
22
英文(印度)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话67小时 添加到咨询列表ENI_ASR002Appen Global对话录音英语印度低背景噪音540277 56511 6468alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了271个电话对话
Y
21
英文(印度)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话和固定电话217小时 添加到咨询列表ENI_ASR001Appen Global有定稿的录音英语印度混合2 3581117 9009 1908alaw完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典[SAMPA]
每个发音人录制49个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
Y
171
英文(印度)词性词典
文本 ASR, TTS, 语言建模N/A13,000个单词 添加到咨询列表eng_IND_POSAppen Global词性词典英语印度N/AN/AN/AN/A13 000N/AtextY
168
英文(菲律宾)发音词典
文本 ASR, TTS, 语言建模N/A5,000个单词 添加到咨询列表eng_PHL_PHONAppen Global发音词典英语菲律宾N/AN/AN/AN/A5 000N/AtextY
20
英文(菲律宾)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话53小时 添加到咨询列表ENF_ASR001Appen Global对话录音英语菲律宾低背景噪音450241 6027 2728alaw或wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
平均通话时长为10到15分钟
Y
18
英文(阿拉伯文-黎凡特/埃及)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话28小时 添加到咨询列表ENA_ASR001Appen Global对话录音英语埃及低背景噪音2502可根据要求提供5 6198alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
平均通话时长为10到15分钟
Y
127
英语NER语料库
文本 NER, 内容分类, 搜索引擎N/A22,768个句子 添加到咨询列表ENG_NER001Appen GlobalNER英语N/AN/AN/AN/A22 768可根据要求提供N/AtextY
165
英语(澳大利亚)发音词典
文本 ASR, TTS, 语言建模N/A157,000个单词 添加到咨询列表eng_AUS_PHONAppen Global发音词典英语澳大利亚N/AN/AN/AN/A157 000N/AtextY
1
英语(澳大利亚)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话和固定电话92小时 添加到咨询列表AUS_ASR001Appen Global有定稿的录音英语澳大利亚低背景噪音(家庭/办公室)500182 50035 1378alaw完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个发音人录制162个朗读录音,录音包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令(从215个指令中挑选),语音丰富的句子和单词
E
2
英语(澳大利亚)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话和固定电话118小时 添加到咨询列表AUS_ASR002Appen Global有定稿的录音英语澳大利亚混合1 000175 000198alaw完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个发音人录制75个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
语料包含了有定稿的录音和自由发挥的录音,其中每个稿子包含了5条自由发挥的录音
E
172
英语(爱尔兰)发音词典
文本 ASR, TTS, 语言建模N/A12,000个单词 添加到咨询列表eng_IRL_PHONAppen Global发音词典英语爱尔兰N/AN/AN/AN/A12 000N/AtextY
173
英语(纽西兰)发音词典
文本 ASR, TTS, 语言建模N/A50,000个单词 添加到咨询列表eng_NZL_PHONAppen Global发音词典英语纽西兰N/AN/AN/AN/A50 000N/AtextY
176
英语(美国)发音词典
文本 ASR, TTS, 语言建模N/A330,000个单词 添加到咨询列表eng_USA_PHONAppen Global发音词典英语美国N/AN/AN/AN/A330 000N/AtextY
103
英语(美国)对话式的智能手机录音语料库
音频 ASR, 对话式AI, 语音分析移动电话1000小时 添加到咨询列表USE_ASR003Appen Global对话录音英语美国低背景噪音2 0001500 00052 58616wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
对话涵盖了各种主题,包括学习/专业/工作,家乡,生活安排,天气和季节,准时,电视节目/电影
Y
89
英语(美国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风53小时 添加到咨询列表Speecon English (USA) databaseNuance有定稿的录音英语美国混合(办公室/娱乐场所/车内/公共场所)600(550个成年语料提供者及50个儿童语料提供者)4170 000可根据要求提供16可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料
Y
102
英语(美国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风62小时 添加到咨询列表USE_ASR001Appen Global有定稿的录音英语美国低背景噪音(录音棚)200280 00018 31848alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
每个发音人录制400个语料,语料包括数字,自然数,人名,城市名,电话号码,通用指令和特定指令,语音丰富的句子和单词
Y
177
英语(美国)词性词典
文本 ASR, TTS, 语言建模N/A263,000个单词 添加到咨询列表eng_USA_POSAppen Global词性词典英语美国N/AN/AN/AN/A263 000N/AtextY
95
英语(英国)
音频 TTS头戴式麦克风11小时 添加到咨询列表TC-STAR female baseline voice LauraNuance有定稿的录音英语英国低背景噪音(录音棚)11可根据要求提供可根据要求提供96可根据要求提供数据集包括人工正字法转录的转录文件,自动分割的音素,自动生成的音高标记(已手动检查了一定比例的语音段和音高标记)
数据集附有一个包含词性,词元和音标的发音词典
Y
96
英语(英国)
音频 TTS头戴式麦克风7小时 添加到咨询列表TC-STAR male baseline voice IanNuance有定稿的录音英语英国低背景噪音(录音棚)11可根据要求提供可根据要求提供96可根据要求提供数据集包括人工正字法转录的转录文件,自动分割的音素,自动生成的音高标记(已手动检查了一定比例的语音段和音高标记)
数据集附有一个包含词性,词元和音标的发音词典
Y
174
英语(英国)发音词典
文本 ASR, TTS, 语言建模N/A195,000个单词 添加到咨询列表eng_GBR_PHONAppen Global发音词典英语英国N/AN/AN/AN/A195 000N/AtextY
100
英语(英国)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话150小时 添加到咨询列表UKE_ASR001Appen Global对话录音英语英国低背景噪音1 1502298 56224 1938wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
Y
254
英语(英国)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话50小时 添加到咨询列表UKE_ASR001BAppen Global对话录音英语英国低背景噪音1 1502可根据要求提供13 1928wav数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
Y
175
英语(英国)词性词典
文本 ASR, TTS, 语言建模N/A155,000个单词 添加到咨询列表eng_GBR_POSAppen Global词性词典英语英国N/AN/AN/AN/A155 000N/AtextY
164
英语(阿拉伯联合酋长国)发音词典
文本 ASR, TTS, 语言建模N/A5,000个单词 添加到咨询列表eng_ARE_PHONAppen Global发音词典英语阿拉伯联合酋长国N/AN/AN/AN/A5 000N/AtextY
63
英语(阿拉伯联合酋长国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话和固定电话33小时 添加到咨询列表OrienTel English as spoken in the United Arab EmiratesNuance有定稿的录音英语阿拉伯联合酋长国低背景噪音500125 500可根据要求提供8alaw数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制51个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令
Y
169
英语(香港)发音词典
文本 ASR, TTS, 语言建模N/A18,000个单词 添加到咨询列表eng_HKG_PHONAppen Global发音词典英语香港N/AN/AN/AN/A18 000N/AtextY
29
荷兰语(比利时)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手麦克风80小时 添加到咨询列表Flemish SpeechDat(II) FDB-1000 (FIXED1FL)Nuance有定稿的录音荷兰语比利时低背景噪音1 000152 000可根据要求提供8alaw数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制52个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令
H
87
荷兰语(比利时)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风47小时 添加到咨询列表Speecon Dutch from BelgiumNuance有定稿的录音荷兰语比利时混合(办公室/娱乐场所/车内/公共场所)600(550个成年语料提供者及50个儿童语料提供者)4170 000可根据要求提供16alaw数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料
H
16
荷兰语(荷兰和比利时)有定稿的车内录音语料库
音频 ASR, 虚拟助手, 车载HMI及娱乐设备麦克风和移动电话27小时 添加到咨询列表Dutch and Flemish SpeechDat-CarNuance有定稿的录音荷兰语荷兰-比利时混合(车内)302515 100可根据要求提供16和8alaw数据集已完全转录,并附有发音词典和验证报告
每个成年发音人录制125个语料,语料包括数字,自然数,字母串,个人、地点和企业名称(一些是自由发挥的),通用指令和特定指令,语音丰富的句子和单词及自由发挥的语料
H
163
荷兰语(荷兰)发音词典
文本 ASR, TTS, 语言建模N/A45,000个单词 添加到咨询列表nld_NLD_PHONAppen Global发音词典荷兰语荷兰N/AN/AN/AN/A45 000N/AtextH
62
荷兰语(荷兰)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话36小时 添加到咨询列表NLD_ASR001Appen Global对话录音荷兰语荷兰低背景噪音2002可根据要求提供14 9648alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
H
88
荷兰语(荷兰)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风68小时 添加到咨询列表Speecon Dutch from the NetherlandsNuance有定稿的录音荷兰语荷兰混合(办公室/娱乐场所/车内/公共场所)600(550个成年语料提供者及50个儿童语料提供者)4170 000可根据要求提供16alaw数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料
H
291
葡萄牙语(欧洲)自由说语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风2.88小时 添加到咨询列表POR_EUR_ASR001_CNAppen China自由说葡萄牙语(欧洲)葡萄牙低背景噪音(家庭/办公室)8 NANA16wavP
219
葡萄牙语(巴西)发音词典
文本 ASR, TTS, 语言建模N/A102,000个单词 添加到咨询列表por_BRA_PHONAppen Global发音词典葡萄牙语巴西N/AN/AN/AN/A102 000N/AtextP
74
葡萄牙语(巴西)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话33小时 添加到咨询列表PTB_ASR002Appen Global对话录音葡萄牙语巴西低背景噪音2002可根据要求提供11 2878alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
P
220
葡萄牙语(巴西)词性词典
文本 ASR, TTS, 语言建模N/A100,000个单词 添加到咨询列表por_BRA_POSAppen Global词性词典葡萄牙语巴西N/AN/AN/AN/A100 000N/AtextP
73
葡萄牙语(巴西)麦克风录音数据库
音频 ASR, 虚拟助手, 聊天机器人麦克风26小时 添加到咨询列表PTB_ASR001Global Phone有定稿的录音葡萄牙语巴西低背景噪音(家庭/办公室)102110 417可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
P
221
葡萄牙语(葡萄牙)发音词典
文本 ASR, TTS, 语言建模N/A112,000个单词 添加到咨询列表por_PRT_PHONAppen Global发音词典葡萄牙语葡萄牙N/AN/AN/AN/A112 000N/AtextP
75
葡萄牙语(葡萄牙)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话36小时 添加到咨询列表PTP_ASR001Appen Global对话录音葡萄牙语葡萄牙低背景噪音2002可根据要求提供16 3398alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
P
222
葡萄牙语(葡萄牙)词性词典
文本 ASR, TTS, 语言建模N/A100,000个单词 添加到咨询列表por_PRT_POSAppen Global词性词典葡萄牙语葡萄牙N/AN/AN/AN/A100 000N/AtextP
212
蒙古语(蒙古)发音词典
文本 ASR, TTS, 语言建模N/A30,000个单词 添加到咨询列表mon_MNG_PHONAppen Global发音词典蒙古语蒙古N/AN/AN/AN/A30 000N/AtextM
232
西班牙文(哥伦比亚)发音词典
文本 ASR, TTS, 语言建模N/A15,000个单词 添加到咨询列表spa_COL_PHONAppen Global发音词典西班牙语哥伦比亚N/AN/AN/AN/A15 000N/AtextX
235
西班牙文(委内瑞拉)发音词典
文本 ASR, TTS, 语言建模N/A15,000个单词 添加到咨询列表spa_VEN_PHONAppen Global发音词典西班牙语委内瑞拉N/AN/AN/AN/A15 000N/AtextX
231
西班牙文(智利)发音词典
文本 ASR, TTS, 语言建模N/A15,000个单词 添加到咨询列表spa_CHL_PHONAppen Global发音词典西班牙语智利N/AN/AN/AN/A15 000N/AtextX
230
西班牙文(西班牙)发音词典
文本 ASR, TTS, 语言建模N/A100,000个单词 添加到咨询列表spa_ESP_PHONAppen Global发音词典西班牙语西班牙N/AN/AN/AN/A100 000N/AtextX
113
西班牙文(西班牙)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人移动电话540小时 添加到咨询列表ESP_ASR002_CNAppen China有定稿的录音西班牙语西班牙低背景噪音(家庭/办公室)3471258 395134 93916wav数据集已完全转录X
25
西班牙文(西班牙)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风39小时 添加到咨询列表ESP_ASR001Appen Global有定稿的录音西班牙语西班牙混合200440 0006 36722alaw完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个发音人录制200个语料,语料包括100个命令和特定指令,100个语音丰富的句子
X
26
西班牙文(西班牙)有定稿的麦克风录音语料库
音频 TTS麦克风1 hour 添加到咨询列表ESP_TTS001Appen Global有定稿的录音西班牙语西班牙低背景噪音(录音棚)111 7873 61422alaw数据集随附一个发音词典,其中包含该数据集中所说的所有单词
每个演讲者提供1787条语料,包括语音丰富的句子
X
93
西班牙文(西班牙)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风46小时 添加到咨询列表Speecon Spanish DatabaseNuance有定稿的录音西班牙语西班牙混合(办公室/娱乐场所/车内/公共场所)600(550个成年语料提供者及50个儿童语料提供者)4170 000可根据要求提供16可根据要求提供数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料
X
270
西班牙语自由说语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风2小时 添加到咨询列表ESP_ASR002_CNAppen China自由说西班牙语西班牙低背景噪音(家庭/办公室)N/A NANA16wavX
24
西班牙语(拉丁美洲-智利和哥伦比亚)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话22小时 添加到咨询列表ESL_ASR002Appen Global对话录音西班牙语智利-哥伦比亚混合842可根据要求提供可根据要求提供8wav数据集已完全转录并加了时间戳
银行和电信领域的呼叫中心风格的对话(由64个客户和14个代理商提供的),主要使用移动电话
X
23
西班牙语(拉丁美洲)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风17小时 添加到咨询列表ESL_ASR001Global Phone有定稿的录音西班牙语哥斯达黎加低背景噪音(家庭/办公室)10016 898可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
X
233
西班牙语(秘鲁)发音词典
文本 ASR, TTS, 语言建模N/A15,000个单词 添加到咨询列表spa_PER_PHONAppen Global发音词典西班牙语秘鲁N/AN/AN/AN/A15 000N/AtextX
234
西班牙语(美国)发音词典
文本 ASR, TTS, 语言建模N/A90,000个单词 添加到咨询列表spa_USA_PHONAppen Global发音词典西班牙语美国N/AN/AN/AN/A90 000N/AtextX
229
西班牙语(阿根廷)发音词典
文本 ASR, TTS, 语言建模N/A15,000个单词 添加到咨询列表spa_ARG_PHONAppen Global发音词典西班牙语阿根廷N/AN/AN/AN/A15 000N/AtextX
40
豪萨语有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风20小时 添加到咨询列表HAU_ASR001Global Phone有定稿的录音豪萨语多国低背景噪音(家庭/办公室)10317 895可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
H
190
豪萨(尼日利亚)发音词典
文本 ASR, TTS, 语言建模N/A11,000个单词 添加到咨询列表hau_NGA_PHONAppen Global发音词典豪萨语奈及利亚N/AN/AN/AN/A11 000N/AtextH
41
豪萨(尼日利亚)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话33小时 添加到咨询列表HAU_ASR002Appen Global对话录音豪萨语奈及利亚低背景噪音2002可根据要求提供7 9498alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
H
288
越南语自由说语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风2.61小时 添加到咨询列表VIE_ASR001_CNAppen China自由说越南语越南低背景噪音(家庭/办公室)7 NANA16wavY
250
越南(Vietnam)发音词典
文本 ASR, TTS, 语言建模N/A8,000个单词 添加到咨询列表vie_VNM_PHONAppen Global发音词典越南语越南N/AN/AN/AN/A8 000N/AtextY
104
越南(Vietnam)麦克风录音数据库
音频 ASR, 虚拟助手, 聊天机器人麦克风47小时 添加到咨询列表VIE_ASR001Global Phone有定稿的录音越南语越南低背景噪音(家庭/办公室)129118 842可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
Y
125
身体移动视频库
视频 健身应用, 行为识别, 手势识别移动电话2,000 个视频 添加到咨询列表VED_HUMAN_BODY_CNAppen China人体N/A中国不同背景及光线1000NANANANAmp4每个视频片段长约10至20秒Z
161
达里语(阿富汗)发音词典
文本 ASR, TTS, 语言建模N/A30,000个单词 添加到咨询列表prs_AFG_PHONAppen Global发音词典达里语阿富汗N/AN/AN/AN/A30 000N/AtextD
12
达里语(阿富汗)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话40小时 添加到咨询列表DAR_ASR001Appen Global对话录音达里语阿富汗低背景噪音5002可根据要求提供11 1688alaw数据集已完全转录并加上时间戳
数据集主要是语音,不包括音乐或广告
D
13
达里语(阿富汗)广播录音数据库
音频 ASR, 自动字幕, 关键字检索麦克风51小时 添加到咨询列表DAR_BRC001Appen Global广播录音达里语阿富汗低背景噪音(录音棚)N/A1可根据要求提供可根据要求提供N/Awav数据集已完全转录并加上时间戳
数据集主要是语音,不包括音乐或广告
数据类型包括:脱口秀,访谈,新闻广播(不包括主持人阅读的新闻)
D
282
长沙语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风2.18小时 添加到咨询列表CHANGSHA_ASR001_CNAppen China语料朗读长沙中国低背景噪音(家庭/办公室)10 NANA16wavZ
135
阿姆哈拉语(埃塞俄比亚)发音词典
文本 ASR, TTS, 语言建模N/A45,000个单词 添加到咨询列表amh_ETH_PHONAppen Global发音词典阿姆哈拉语埃塞俄比亚N/AN/AN/AN/A45 000N/AtextA
134
阿尔巴尼亚语(阿尔巴尼亚)发音词典
文本 ASR, TTS, 语言建模N/A12,000个单词 添加到咨询列表sqi_ALB_PHONAppen Global发音词典阿尔巴尼亚语阿尔巴尼亚N/AN/AN/AN/A12 000N/AtextA
126
阿拉伯语NER语料库
文本 NER, 内容分类, 搜索引擎N/A20,774个句子 添加到咨询列表ARB_NER001Appen GlobalNER阿拉伯语N/AN/AN/AN/A20 774可根据要求提供N/AtextA
143
阿拉伯语发音词典
文本 ASR, TTS, 语言建模N/A40,000个单词 添加到咨询列表arb_N/A_PHONAppen Global发音词典阿拉伯语N/AN/AN/AN/AN/A40 000N/AtextA
137
阿拉伯语(伊拉克)发音词典
文本 ASR, TTS, 语言建模N/A15,000个单词 添加到咨询列表ara_IRQ_PHONAppen Global发音词典阿拉伯语伊拉克N/AN/AN/AN/A15 000N/Atext人名A
138
阿拉伯语(伊拉克)词性词典
文本 ASR, TTS, 语言建模N/A13,000个单词 添加到咨询列表ara_IRQ_POSAppen Global词性词典阿拉伯语伊拉克N/AN/AN/AN/A13 000N/AtextA
139
阿拉伯语(利比亚)发音词典
文本 ASR, TTS, 语言建模N/A48,000个单词 添加到咨询列表ara_LBY_PHONAppen Global发音词典阿拉伯语利比亚N/AN/AN/AN/A48 000N/AtextA
136
阿拉伯语(埃及)发音词典
文本 ASR, TTS, 语言建模N/A40,000个单词 添加到咨询列表ara_EGY_PHONAppen Global发音词典阿拉伯语埃及N/AN/AN/AN/A40 000N/AtextA
110
阿拉伯语(埃及)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人移动电话352小时 添加到咨询列表ARE_ASR001_CNAppen China有定稿的录音阿拉伯语埃及低背景噪音(家庭/办公室)6271128 908207 57616wav数据集已完全转录A
142
阿拉伯语(摩洛哥)发音词典
文本 ASR, TTS, 语言建模N/A60,000个单词 添加到咨询列表ara_MAR_PHONAppen Global发音词典阿拉伯语摩洛哥N/AN/AN/AN/A60 000N/AtextA
109
阿拉伯语(摩洛哥)对话式的电话录音翻译
文本 MT, 聊天机器人, 对话式AIN/A80,544 个发音 添加到咨询列表ARY_MT001Appen Global对话翻译阿拉伯语摩洛哥N/A180N/A80 43023 844N/Atext相应的音频,转录文本,完全可逆的罗马化的转录文本及发音词典见数据集ARY_ASR001和ARY_ASRMT001A
108
阿拉伯语(摩洛哥)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话33小时 添加到咨询列表ARY_ASR001Appen Global对话录音阿拉伯语摩洛哥低背景噪音180280 54423 8368alaw每个发音人参与了1至4个对话,每个发音人由一个记录在人口统计文件中的唯一的4位数的演讲者ID来识别
此转录文件有原始版本和完全可逆的罗马化版本,并附带发音词典
产品转录的英文翻译见数据集ARY_MT001和ARY_ASRMT001
A
111
阿拉伯语(沙特阿拉伯)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人移动电话322小时 添加到咨询列表ARS_ASR001_CNAppen China有定稿的录音阿拉伯语沙特阿拉伯低背景噪音(家庭/办公室)2271104 574156 28216wav数据集已完全转录A
61
阿拉伯语(现代标准阿拉伯语)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风12小时 添加到咨询列表MSA_ASR001Global Phone有定稿的录音阿拉伯语突尼斯低背景噪音(家庭/办公室)7814 908可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
A
145
阿拉伯语(苏丹)发音词典
文本 ASR, TTS, 语言建模N/A17,000个单词 添加到咨询列表ara_SDN_PHONAppen Global发音词典阿拉伯语苏丹N/AN/AN/AN/A17 000N/AtextA
17
阿拉伯语(阿尔及利亚东部)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话29小时 添加到咨询列表EAR_ASR001Appen Global对话录音阿拉伯语阿尔及利亚低背景噪音(家庭/办公室)4962可根据要求提供11 3278alaw数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
在大多数通话中,对话双方(呼入者和呼出者)的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话内容被收集并转录了
A
140
阿拉伯语(阿尔及利亚)发音词典
文本 ASR, TTS, 语言建模N/A11,000个单词 添加到咨询列表ara_DZA_PHONAppen Global发音词典阿拉伯语阿尔及利亚N/AN/AN/AN/A11 000N/AtextA
7
阿拉伯语(阿拉伯联合酋长国/沙特阿拉伯)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风86小时 添加到咨询列表CGA_ASR001Appen Global有定稿的录音阿拉伯语阿拉伯联合酋长国-沙特阿拉伯低背景噪音(家庭/办公室)150442 00019 24516alaw语音文件内容已完全转录,精确到单词
所有录音均使用了衍生于SpeechDATmodel的方法进行标记
所有转录文件已被加注元音标识
每个发音人录制280个语料,语料包括15个人的名字和姓氏(共计30个),10个分开朗读的数字(0-10),随机生成的数字序列(每个序列包含8个数字),200个语音平衡的句子,30个语音平衡单词串(每个单词串包含10个单词)
A
144
阿拉伯语(阿拉伯联合酋长国)发音词典
文本 ASR, TTS, 语言建模N/A75,000个单词 添加到咨询列表ara_ARE_PHONAppen Global发音词典阿拉伯语阿拉伯联合酋长国N/AN/AN/AN/A75 000N/AtextA
118
阿拉伯语(阿拉伯联合酋长国)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人移动电话170小时 添加到咨询列表ARU_ASR001_CNAppen China有定稿的录音阿拉伯语阿拉伯联合酋长国低背景噪音(家庭/办公室)133142 35285 77516wav数据集已完全转录A
66
阿拉伯语(阿拉伯联合酋长国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话和固定电话48小时 添加到咨询列表OrienTel United Arab Emirates MCA (Modern Colloquial Arabic)Nuance有定稿的录音阿拉伯语阿拉伯联合酋长国低背景噪音880143 000可根据要求提供8alaw数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制49个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令
A
67
阿拉伯语(阿拉伯联合酋长国)有定稿的电话录音语料库
音频 ASR, 呼叫中心, 虚拟助手移动电话和固定电话31小时 添加到咨询列表OrienTel United Arab Emirates MSA (Modern Standard Arabic)Nuance有定稿的录音阿拉伯语阿拉伯联合酋长国低背景噪音500124 500可根据要求提供8alaw数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制49个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令
A
146
阿萨姆语(印度)发音词典
文本 ASR, TTS, 语言建模N/A40,000个单词 添加到咨询列表asm_IND_PHONAppen Global发音词典阿萨姆语印度N/AN/AN/AN/A40 000N/AtextA
202
韩文(韩国)发音词典
文本 ASR, TTS, 语言建模N/A100,000个单词 添加到咨询列表kor_KOR_PHONAppen Global发音词典韩语韩国N/AN/AN/AN/A100 000N/AtextH
55
韩文(韩国)有定稿的麦克风录音语料库
音频 ASR, 虚拟助手, 聊天机器人麦克风20小时 添加到咨询列表KOR_ASR001Global Phone有定稿的录音韩语韩国低背景噪音(家庭/办公室)10018 107可根据要求提供16wav数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
H
203
韩文(韩国)词性词典
文本 ASR, TTS, 语言建模N/A100,000个单词 添加到咨询列表kor_KOR_POSAppen Global词性词典韩语韩国N/AN/AN/AN/A100 000N/AtextH
128
韩语NER语料库
文本 NER, 内容分类, 搜索引擎N/A25,830个句子 添加到咨询列表KOR_NER001Appen GlobalNER韩语韩国N/AN/AN/A25 830可根据要求提供N/AtextH
289
韩语自由说语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风3.35小时 添加到咨询列表KOR_ASR001_CNAppen China自由说韩语韩国低背景噪音(家庭/办公室)4 NANA16wavH
211
马拉地语(印度)发音词典
文本 ASR, TTS, 语言建模N/A30,000个单词 添加到咨询列表mar_IND_PHONAppen Global发音词典马拉地语印度N/AN/AN/AN/A30 000N/AtextM
60
马拉地语(印度)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话15小时 添加到咨询列表MAR_ASR001Appen Global对话录音马拉地语印度混合1802可根据要求提供11 9088alaw数据集中大约29%的会话被转录并加盖了时间戳,可以提供完整的转录文本
数据集附带一个包含所有转录词的发音词典
M
106
马拉地语(印度)对话式的电话录音语料库
音频 ASR, 对话式AI, 语音分析移动电话和固定电话52小时 添加到咨询列表MAR_ASR001AAppen Global对话录音马拉地语印度混合1 0002可根据要求提供11 9088alaw数据集的部分会话被转录并加盖了时间戳,可以提供完整的转录文本
数据集附带一个包含所有转录词的发音词典
M
207
马拉雅拉姆语(印度)发音词典
文本 ASR, TTS, 语言建模N/A4,000个单词 添加到咨询列表mal_IND_PHONAppen Global发音词典玛拉雅拉姆语印度N/AN/AN/AN/A4 000N/AtextM
208
马来西亚(马来西亚)发音词典
文本 ASR, TTS, 语言建模N/A10,000个单词 添加到咨询列表msa_MYS_PHONAppen Global发音词典马来语马来西亚N/AN/AN/AN/A10 000N/AtextM
287
马来语自由说语音数据库
音频 ASR, 对话式AI, 语音分析手机麦克风3.01小时 添加到咨询列表MAL_ASR001_CNAppen China自由说马来语马来西亚低背景噪音(家庭/办公室)9 NANA16wavM
119
高棉语(柬埔寨)有定稿的智能手机录音语料库
音频 ASR, 虚拟助手, 聊天机器人移动电话90小时 添加到咨询列表KHM_ASR001_CNAppen China有定稿的录音高棉语柬埔寨低背景噪音(家庭/办公室)94124 61852 15716wav数据集已完全转录G
121
黑人(东非)脸部照片库
图像 面部识别照相机13,500张图片 添加到咨询列表IMG_FACE_KEN_CNAppen China人脸N/A肯尼亚不同背景及光线100NANANANAjpgK





应用场景


无论您是在开发语音合成系统、语音识别系统还是其他依赖自然语言的解决方案,高质量的授权语音和语言数据集都能让您更快地进入市场,触达更多的潜在客户群