成品数据集


我们的经授权许可的成品数据集将快速启动您的AI项目

查看数据集产品目录
观看数据集视频介绍


Image

数据产品目录



澳鹏提供种类丰富的成品数据库,我们的数据产品目录包括250多个可授权的数据集,涵盖80多种语言及方言,适用于各种常见的AI应用场景,例如:TTS、ASR等(参考下面目录表的筛选功能查看更多应用场景)。我们也在不断更新数据库中,2020年将推出30多个全新数据集,联系我们为您一同构建适用于您的项目的数据产品。



Image

快速部署



直接获取数据库产品快速为您部署AI与机器学习项目


Image

低成本高效益



直接获取经授权的成品数据库比您定制数据采集服务更具成本效益。


Image

专家团队



您将拥有一支在数据采集领域耕耘20多年的专家团队支持


Image

支持所有数据类型



图像,视频,语音,音频,文本

Image

大规模



提供大量、高品质的数据高效地训练您的机器模型

Image

高质量



提高您的机器模型质量并减少数据偏见






You have 0 Pre-Labeled Datasets Added to Quote Request Quote
Dataset 音频 Sorani(库尔德语)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 5小时 Add Dataset to Quote SOR_ASR001 Appen Global 对话录音 库尔德语 伊朗 低背景噪音 170 2 可根据要求提供 7 924 8 alaw或wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
对于很大比例的电话录音,只有一半的对话被收集和转录
Sorani(库尔德语)对话式的电话录音语料库
Dataset 音频 上海方言(中国)多人对话式录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话 Unit: 4.5 小时 Add Dataset to Quote SHANGHAI_ASR002_CN Appen China 对话录音 上海方言 中国 低背景噪音(家庭/办公室) 14 1 NA NA 8 wav 覆盖地区: 上海黄浦区、徐汇区、长宁区、静安区、普陀区、虹口区、杨浦区、浦东新区八区。 注:数据不包含上海郊区口音数据以及未成年人录制数据。 单人发音时长约40分钟,单个语音对话20~30分钟之间 内容为2~5人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。 数据库只是语音库,不含有转写文字 上海方言(中国)多人对话式录音语料库
Dataset 音频 上海方言(中国)多人对话式录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 录音笔/麦克风 Unit: 21小时 Add Dataset to Quote SHANGHAI_ASR001_CN Appen China 对话录音 上海方言 中国 低背景噪音(家庭/办公室) 51 1 NA NA 16 wav 覆盖地区: 上海黄浦区、徐汇区、长宁区、静安区、普陀区、虹口区、杨浦区、浦东新区八区。 注:数据不包含上海郊区口音数据以及未成年人录制数据。 单人发音时长约40分钟,单个语音对话20~30分钟之间 内容为2~5人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。 数据库只是语音库,不含有转写文字 上海方言(中国)多人对话式录音语料库
Dataset 音频 上海语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 4.1小时 Add Dataset to Quote SHANGHAI_ASR003_CN Appen China 语料朗读 上海 中国 低背景噪音(家庭/办公室) 8   NA NA 16 wav 上海语音数据库
Dataset 音频 东北方言(中国)多人对话式录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 录音笔/麦克风 Unit: 84.6小时 Add Dataset to Quote DONGBEI_ASR001_CN Appen China 对话录音 东北方言 中国 低背景噪音(家庭/办公室) 268 1 NA NA 16 wav 覆盖地区: 沈阳和平区、沈河区、皇姑区、大东区、铁西区、绿园区,朝阳区,宽城区,二道区,南关区、道里区、南岗区、道外区、平房区、松北区、香坊区、呼兰区、阿城区、双城区十九个区 注:数据不包含东北郊区口音数据以及未成年人录制数据。 单人发音时长约40分钟,单个语音对话20~30分钟之间 内容为2~5人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。 数据库只是语音库,不含有转写文字 东北方言(中国)多人对话式录音语料库
Dataset 音频 东北方言(中国)多人对话式录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话 Unit: 75.2小时 Add Dataset to Quote DONGBEI_ASR002_CN Appen China 对话录音 东北方言 中国 低背景噪音(家庭/办公室) 185 1 NA NA 8 wav 覆盖地区: 沈阳和平区、沈河区、皇姑区、大东区、铁西区、绿园区,朝阳区,宽城区,二道区,南关区、道里区、南岗区、道外区、平房区、松北区、香坊区、呼兰区、阿城区、双城区十九个区 注:数据不包含东北郊区口音数据以及未成年人录制数据。 单人发音时长约40分钟,单个语音对话20~30分钟之间 内容为2~5人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。 数据库只是语音库,不含有转写文字 东北方言(中国)多人对话式录音语料库
Dataset 音频 东北语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 2.72小时 Add Dataset to Quote DONGBEI_ASR003_CN Appen China 语料朗读 东北 中国 低背景噪音(家庭/办公室) 8   NA NA 16 wav 东北语音数据库
Dataset 文本 丹麦(丹麦)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 107,000个单词 Add Dataset to Quote dan_DNK_PHON Appen Global 发音词典 丹麦语 丹麦 N/A N/A N/A N/A 107 000 N/A text 丹麦(丹麦)发音词典
Dataset 音频 丹麦(丹麦)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 53小时 Add Dataset to Quote Speecon Danish Nuance 有定稿的录音 丹麦语 丹麦 混合(办公室/娱乐场所/车内/公共场所) 600(550个成年语料提供者及50个儿童语料提供者) 4 170 000 可根据要求提供 16 alaw 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料
丹麦(丹麦)有定稿的麦克风录音语料库
Dataset 文本 丹麦(丹麦)词性词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 100,000个单词 Add Dataset to Quote dan_DNK_POS Appen Global 词性词典 丹麦语 丹麦 N/A N/A N/A N/A 100 000 N/A text 丹麦(丹麦)词性词典
Dataset 文本 乌克兰语(乌克兰)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 5,000个单词 Add Dataset to Quote ukr_UKR_PHON Appen Global 发音词典 乌克兰语 乌克兰 N/A N/A N/A N/A 5 000 N/A text 乌克兰语(乌克兰)发音词典
Dataset 文本 乌尔都语NER语料库 Common Use Cases: NER, 内容分类, 搜索引擎 Recording Device: N/A Unit: 20,634个句子 Add Dataset to Quote URD_NER001 Appen Global NER 乌尔都语 巴基斯坦 N/A N/A N/A 20 634 可根据要求提供 N/A text 乌尔都语NER语料库
Dataset 音频 乌尔都语(印度/巴基斯坦)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 47小时 Add Dataset to Quote URD_ASR001 Appen Global 对话录音 乌尔都语 印度-巴基斯坦 混合 1 000 2 可根据要求提供 10 871 8 wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
乌尔都语(印度/巴基斯坦)对话式的电话录音语料库
Dataset 文本 乌尔都语(巴基斯坦)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 40,000个单词 Add Dataset to Quote urd_PAK_PHON Appen Global 发音词典 乌尔都语 巴基斯坦 N/A N/A N/A N/A 40 000 N/A text 乌尔都语(巴基斯坦)发音词典
Dataset 文本 乌尔都语(巴基斯坦)词性词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 12,000个单词 Add Dataset to Quote urd_PAK_POS Appen Global 词性词典 乌尔都语 巴基斯坦 N/A N/A N/A N/A 12 000 N/A text 乌尔都语(巴基斯坦)词性词典
Dataset 音频 他加禄语语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 电话录音 Unit: 68.25小时 Add Dataset to Quote Tagalo_ASR001_CN Appen China 语料朗读 他加禄语 菲律宾 低背景噪音(家庭/办公室) 84 1 NA NA 16 ulaw,alaw 覆盖地区:菲律宾 单人录制大约4800s(500个句子),每个句子在3到10秒之间。内容为单人朗读所给语料。以电话录音实现,要求设备的多样化:手机、扬声器、固定电话、耳机。 他加禄语语音数据库
Dataset 文本 伊博语(尼日利亚)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 30,000个单词 Add Dataset to Quote ibo_NGA_PHON Appen Global 发音词典 伊博语 奈及利亚 N/A N/A N/A N/A 30 000 N/A text 伊博语(尼日利亚)发音词典
Dataset 文本 伊朗波斯语(伊朗)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 80,000个单词 Add Dataset to Quote pes_IRN_PHON Appen Global 发音词典 波斯语 伊朗 N/A N/A N/A N/A 80 000 N/A text 伊朗波斯语(伊朗)发音词典
Dataset 文本 伊朗波斯语(伊朗)词性词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 1,400,000个单词 Add Dataset to Quote pes_IRN_POS Appen Global 词性词典 波斯语 伊朗 N/A N/A N/A N/A 1 400 000 N/A text 伊朗波斯语(伊朗)词性词典
Dataset 文本 俄罗斯(Russia)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 115,000个单词 Add Dataset to Quote rus_RUS_PHON Appen Global 发音词典 俄语 俄国 N/A N/A N/A N/A 115 000 N/A text 俄罗斯(Russia)发音词典
Dataset 音频 俄罗斯(Russia)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 37小时 Add Dataset to Quote RUS_ASR001 Appen Global 对话录音 俄语 俄国 低背景噪音 200 2 可根据要求提供 28 284 8 alaw或wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
俄罗斯(Russia)对话式的电话录音语料库
Dataset 音频 俄罗斯(Russia)有定稿的电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 仅固定电话 Unit: 180小时 Add Dataset to Quote Russian SpeechDat(E) Database Nuance 有定稿的录音 俄语 俄国 低背景噪音 2 500 1 112 000 可根据要求提供 8 alaw 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制45个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
俄罗斯(Russia)有定稿的电话录音语料库
Dataset 音频 俄罗斯(Russia)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 31小时 Add Dataset to Quote RUS_ASR002 Global Phone 有定稿的录音 俄语 俄国 低背景噪音(家庭/办公室) 115 1 12 205 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
俄罗斯(Russia)有定稿的麦克风录音语料库
Dataset 音频 俄罗斯(Russia)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 46小时 Add Dataset to Quote Speecon Russian Database Nuance 有定稿的录音 俄语 俄国 混合(办公室/娱乐场所/车内/公共场所) 600(550个成年语料提供者及50个儿童语料提供者) 4 170 000 可根据要求提供 16 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料
俄罗斯(Russia)有定稿的麦克风录音语料库
Dataset 文本 俄罗斯(Russia)词性词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 100,000个单词 Add Dataset to Quote rus_RUS_POS Appen Global 词性词典 俄语 俄国 N/A N/A N/A N/A 100 000 N/A text 俄罗斯(Russia)词性词典
Dataset 文本 俄语NER语料库 Common Use Cases: NER, 内容分类, 搜索引擎 Recording Device: N/A Unit: 29,888个句子 Add Dataset to Quote RUS_NER001 Appen Global NER 俄语 俄国 N/A N/A N/A 29 888 可根据要求提供 N/A text 俄语NER语料库
Dataset 音频 俄语(俄国)自由说语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 30.89小时 Add Dataset to Quote RUS_ASR003_CN Appen China 自由说 俄语(俄国) 俄国 低背景噪音(家庭/办公室) 32 1 NA NA 16 wav 俄语(俄国)自由说语音数据库
Dataset 文本 保加利亚语(保加利亚)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 55,000个单词 Add Dataset to Quote bul_BGR_PHON Appen Global 发音词典 保加利亚语 保加利亚 N/A N/A N/A N/A 55 000 N/A text 保加利亚语(保加利亚)发音词典
Dataset 音频 保加利亚语(保加利亚)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 38小时 Add Dataset to Quote BUL_ASR001 Appen Global 对话录音 保加利亚语 保加利亚 低背景噪音(家庭/办公室) 217 2 可根据要求提供 22 342 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
保加利亚语(保加利亚)对话式的电话录音语料库
Dataset 音频 保加利亚语(保加利亚)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 22小时 Add Dataset to Quote BUL_ASR002 Global Phone 有定稿的录音 保加利亚语 保加利亚 低背景噪音(家庭/办公室) 77 1 8 674 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
保加利亚语(保加利亚)有定稿的麦克风录音语料库
Dataset 文本 克罗地亚语(克罗地亚)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 20,000个单词 Add Dataset to Quote hrv_HRV_PHON Appen Global 发音词典 克罗地亚语 克罗地亚 N/A N/A N/A N/A 20 000 N/A text 克罗地亚语(克罗地亚)发音词典
Dataset 音频 克罗地亚语(克罗地亚)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 39小时 Add Dataset to Quote CRO_ASR001 Appen Global 对话录音 克罗地亚语 克罗地亚 低背景噪音(家庭/办公室) 200 2 可根据要求提供 23 919 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
克罗地亚语(克罗地亚)对话式的电话录音语料库
Dataset 音频 克罗地亚语(克罗地亚)有定稿的智能手机录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 移动电话 Unit: 263小时 Add Dataset to Quote CRO_ASR003_CN Appen China 有定稿的录音 克罗地亚语 克罗地亚 低背景噪音(家庭/办公室) 243 1 73 467 136 140 16 wav 数据集已完全转录 克罗地亚语(克罗地亚)有定稿的智能手机录音语料库
Dataset 音频 克罗地亚语(克罗地亚)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 11小时 Add Dataset to Quote CRO_ASR002 Global Phone 有定稿的录音 克罗地亚语 克罗地亚 低背景噪音(家庭/办公室) 94 1 4 499 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
克罗地亚语(克罗地亚)有定稿的麦克风录音语料库
Dataset 音频 内蒙古方言(中国)双人对话式录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话 Unit: 100小时 Add Dataset to Quote NMG_ASR001_CN Appen China 对话录音 内蒙古族语 中国 低背景噪音(家庭/办公室) 200 1 NA NA 16 wav 覆盖地区:通辽 呼和浩特 锡林郭勒盟。 单人发音时长约30分钟,内容为2人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。 数据库只是语音库,不含有转写文字 内蒙古方言(中国)双人对话式录音语料库
Dataset 文本 加泰罗尼亚语(西班牙)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 10,000个单词 Add Dataset to Quote cat_ESP_PHON Appen Global 发音词典 加泰罗尼亚语 西班牙 N/A N/A N/A N/A 10 000 N/A text 加泰罗尼亚语(西班牙)发音词典
Dataset 文本 匈牙利语(匈牙利)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 500个单词 Add Dataset to Quote hun_HUN_PHON Appen Global 发音词典 匈牙利语 匈牙利 N/A N/A N/A N/A 500 N/A text 匈牙利语(匈牙利)发音词典
Dataset 音频 匈牙利语(匈牙利)有定稿的智能手机录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 移动电话 Unit: 286小时 Add Dataset to Quote HUN_ASR001_CN Appen China 有定稿的录音 匈牙利语 匈牙利 低背景噪音(家庭/办公室) 254 1 94 031 201 921 16 wav 数据集已完全转录 匈牙利语(匈牙利)有定稿的智能手机录音语料库
Dataset 音频 匈牙利语(匈牙利)有定稿的电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 仅固定电话 Unit: 65小时 Add Dataset to Quote Hungarian SpeechDat(E) Nuance 有定稿的录音 匈牙利语 匈牙利 低背景噪音 1 000 1 48 000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
匈牙利语(匈牙利)有定稿的电话录音语料库
Dataset 文本 卡纳达语(印度)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 35,000个单词 Add Dataset to Quote kan_IND_PHON Appen Global 发音词典 坎那达语 印度 N/A N/A N/A N/A 35 000 N/A text 卡纳达语(印度)发音词典
Dataset 音频 卡纳达语(印度)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 15小时 Add Dataset to Quote KAN_ASR001 Appen Global 对话录音 坎那达语 印度 混合 178 2 可根据要求提供 15 660 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
卡纳达语(印度)对话式的电话录音语料库
Dataset 音频 卡纳达语(印度)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 57小时 Add Dataset to Quote KAN_ASR001A Appen Global 对话录音 坎那达语 印度 混合 1 000 2 可根据要求提供 15 660 8 alaw 数据集中大约25%的会话被转录并加盖了时间戳,可以提供完整的转录文本
数据库附带一个包含所有转录词的发音词典
卡纳达语(印度)对话式的电话录音语料库
Dataset 文本 卢奥语(肯尼亚)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 20,000个单词 Add Dataset to Quote luo_KEN_PHON Appen Global 发音词典 卢奥语 肯尼亚 N/A N/A N/A N/A 20 000 N/A text 卢奥语(肯尼亚)发音词典
Dataset 音频 印地语自由说语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 2.65小时 Add Dataset to Quote HINDI_ASR001_CN Appen China 自由说 印地语 印度 低背景噪音(家庭/办公室) 6   NA NA 16 wav 印地语自由说语音数据库
Dataset 文本 印地语(印度)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 35,000个单词 Add Dataset to Quote hin_IND_PHON Appen Global 发音词典 印地语 印度 N/A N/A N/A N/A 35 000 N/A text 印地语(印度)发音词典
Dataset 音频 印地语(印度)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 32小时 Add Dataset to Quote HIN_ASR002 Appen Global 对话录音 印地语 印度 混合 996 2 可根据要求提供 12 266 8 wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
在大多数的通话中,对话双方的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话被收集并转录了
印地语(印度)对话式的电话录音语料库
Dataset 音频 印地语(印度)有定稿的电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 移动电话 Unit: 224小时 Add Dataset to Quote HIN_ASR001 Appen Global 有定稿的录音 印地语 印度 低背景噪音 1 920 1 96 000 9 853 8 alaw 完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典[SAMPA]
每个发音人录制50个语料,语料包括数字,自然数,个人、地点和企业名称,网址,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
印地语(印度)有定稿的电话录音语料库
Dataset 文本 印尼文(印度尼西亚)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 95,000个单词 Add Dataset to Quote ind_IDN_PHON Appen Global 发音词典 印度尼西亚语 印度尼西亚 N/A N/A N/A N/A 95 000 N/A text 印尼文(印度尼西亚)发音词典
Dataset 文本 印尼文(印度尼西亚)词性词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 10,000个单词 Add Dataset to Quote ind_IDN_POS Appen Global 词性词典 印度尼西亚语 印度尼西亚 N/A N/A N/A N/A 10 000 N/A text 印尼文(印度尼西亚)词性词典
Dataset 音频 印尼语自由说语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 3.77小时 Add Dataset to Quote IND_ASR001_CN Appen China 自由说 印尼语 印尼 低背景噪音(家庭/办公室) 7   NA NA 16 wav 印尼语自由说语音数据库
Dataset 音频 印尼语(印度尼西亚)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 31小时 Add Dataset to Quote BAH_ASR001 Appen Global 对话录音 印度尼西亚语 印度尼西亚 低背景噪音 1 002 2 可根据要求提供 11 480 8 wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
对于很大比例的电话录音,只有一半的对话被收集和转录
印尼语(印度尼西亚)对话式的电话录音语料库
Dataset 音频 台湾自由说语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 3.12小时 Add Dataset to Quote TAIWAN_ASR001_CN Appen China 自由说 台湾 中国 低背景噪音(家庭/办公室) 10   NA NA 16 wav 台湾自由说语音数据库
Dataset 文本 吴语(中国)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 10,000个单词 Add Dataset to Quote wuu_CHN_PHON Appen Global 发音词典 吴语 中国 N/A N/A N/A N/A 10 000 N/A text 吴语(中国)发音词典
Dataset 文本 哈萨克语(哈萨克斯坦)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 30,000个单词 Add Dataset to Quote kaz_KAZ_PHON Appen Global 发音词典 哈萨克语 哈萨克斯坦 N/A N/A N/A N/A 30 000 N/A text 哈萨克语(哈萨克斯坦)发音词典
Dataset 音频 四川语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 3.86小时 Add Dataset to Quote SICHUAN_ASR001_CN Appen China 语料朗读 四川 中国 低背景噪音(家庭/办公室) 8   NA NA 16 wav 四川语音数据库
Dataset 文本 土耳其语(土耳其)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 255,000个单词 Add Dataset to Quote tur_TUR_PHON Appen Global 发音词典 土耳其语 土耳其 N/A N/A N/A N/A 255 000 N/A text 土耳其语(土耳其)发音词典
Dataset 音频 土耳其语(土耳其)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 41小时 Add Dataset to Quote TUR_ASR001 Appen Global 对话录音 土耳其语 土耳其 低背景噪音 200 2 可根据要求提供 32 386 8 alaw或wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
土耳其语(土耳其)对话式的电话录音语料库
Dataset 音频 土耳其语(土耳其)有定稿的智能手机录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 移动电话 Unit: 739小时 Add Dataset to Quote TUR_ASR003_CN Appen China 有定稿的录音 土耳其语 土耳其 低背景噪音(家庭/办公室) 664 1 185 706 215 135 16 wav 数据集已完全转录 土耳其语(土耳其)有定稿的智能手机录音语料库
Dataset 音频 土耳其语(土耳其)电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 移动电话和固定电话 Unit: 118小时 Add Dataset to Quote OrienTel Turkish Database Nuance 有定稿的录音 土耳其语 土耳其 低背景噪音 1 700 1 76 500 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制45个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
土耳其语(土耳其)电话录音语料库
Dataset 文本 土耳其语(土耳其)词性词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 257,000个单词 Add Dataset to Quote tur_TUR_POS Appen Global 词性词典 土耳其语 土耳其 N/A N/A N/A N/A 257 000 N/A text 土耳其语(土耳其)词性词典
Dataset 音频 土耳其语(土耳其)麦克风录音数据库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 17小时 Add Dataset to Quote TUR_ASR002 Global Phone 有定稿的录音 土耳其语 土耳其 低背景噪音(家庭/办公室) 100 1 6 950 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
土耳其语(土耳其)麦克风录音数据库
Dataset 文本 塔加洛语(菲律宾)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 30,000个单词 Add Dataset to Quote tgl_PHL_PHON Appen Global 发音词典 塔加拉族语 菲律宾 N/A N/A N/A N/A 30 000 N/A text 塔加洛语(菲律宾)发音词典
Dataset 文本 塞尔维亚语(塞尔维亚)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 15,000个单词 Add Dataset to Quote srp_SRB_PHON Appen Global 发音词典 塞尔维亚语 塞尔维亚 N/A N/A N/A N/A 15 000 N/A text 塞尔维亚语(塞尔维亚)发音词典
Dataset 文本 塞海蒂语(孟加拉国-印度)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 22,000个单词 Add Dataset to Quote syl_BGD -IND_PHON Appen Global 发音词典 塞海蒂语 孟加拉国-印度 N/A N/A N/A N/A 22 000 N/A text 塞海蒂语(孟加拉国-印度)发音词典
Dataset 音频 外国人说中文语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话 Unit: 200小时 Add Dataset to Quote FOREIGNER_ASR001_CN Appen China 有定稿的录音 中文(外国人) 多国 低背景噪音(家庭/办公室) 200 NA NA 16 wav 数据库包含200小时的外国人说中文 人数:200人 覆盖国家: 美国(不含加州和伊利诺伊州),印度,菲律宾,日本,加拿大,泰国,澳大利亚,越南,俄罗斯,土耳其,埃及,印度尼西亚。 注:数据不包含韩国,巴西境外数据同时也不包含未成年人录制数据。 单人发音时长约1小时,单句时长3-10秒之间 内容为单人朗读形式 采集工具为手机麦克风 单声道 采样率 16KHZ 录音环境为 家庭/办公室。数据为脱敏数据,编号和录制人信息会打乱。 外国人说中文语音数据库
Dataset 图像 多姿态多光线人像图片数据库 Common Use Cases: 图片标签识别训练 Recording Device: 手机/照相机 Unit: 680张 Add Dataset to Quote IMG_BODY_POSE_CN Appen China 物体图片 N/A 多国 多种光线 NA NA NA NA NA jpg 共680张,多人室内67张,多人室外强光11张,多人室外弱光4张,单人室内550张,单人室外强光7张,单人室外弱光41张 多姿态多光线人像图片数据库
Dataset 图像 多标签图片数据库 Common Use Cases: 图片标签识别训练 Recording Device: 手机/照相机 Unit: 2196 张 Add Dataset to Quote IMG_TAG_CN Appen China 物体图片 N/A N/A 多种光线 NA NA NA NA NA jpg 共2196张多场景图片样例库,可做速成库。分类为:KTV :50张,百货商店 : 55张,办公室: 100张;博物馆:63张;电器 :55张;海洋 : 191张;汽车: 50张;手提包 :35张;夜景:54张;运动器材:54张;便利店 :34张;餐厅 :54张;车窗风景 :62张;宠物 : 82张;船 50张;动物园,70张;服装店:53张;海滩 :95张;机场 : 65张;健身房 :47张;景点 :77张;人群 :67张;沙漠 : 73张;沙滩 :68张;山区 :54张;商场 :55张;树 :85张;天空 : 102张;雪景 :71张;雪山 : 53张;夜景 :78张;游乐场 :94张。 多标签图片数据库
Dataset 文本 奥里雅语(印度)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 15,000个单词 Add Dataset to Quote ori_IND_PHON Appen Global 发音词典 奥里雅语 印度 N/A N/A N/A N/A 15 000 N/A text 奥里雅语(印度)发音词典
Dataset 音频 婴幼儿啼哭语料库 Common Use Cases: 婴儿监控器, 安全及其他消费者应用程序 Recording Device: 移动电话 Unit: 3小时 Add Dataset to Quote CRY_ASR001 Appen China 人声 N/A 中国 低背景噪音(家庭/办公室) 100 1 NA NA 16 wav 0到3岁婴儿的哭声,每个录音持续2分钟左右 婴幼儿啼哭语料库
Dataset 文本 孟加拉语(印度)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 29,000个单词 Add Dataset to Quote ben_IND_PHON Appen Global 发音词典 孟加拉语 印度 N/A N/A N/A N/A 29 000 N/A text 孟加拉语(印度)发音词典
Dataset 音频 孟加拉语(孟加拉国)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 47小时 Add Dataset to Quote BEN_ASR001 Appen Global 对话录音 孟加拉语 孟加拉国 混合(车内/路边/家庭/办公室) 1 000 2 可根据要求提供 17 922 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
孟加拉语(孟加拉国)对话式的电话录音语料库
Dataset 文本 宿雾语(菲律宾)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 20,000个单词 Add Dataset to Quote ceb_PHL_PHON Appen Global 发音词典 宿雾语 菲律宾 N/A N/A N/A N/A 20 000 N/A text 宿雾语(菲律宾)发音词典
Dataset 文本 巴斯克(西班牙)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 10,000个单词 Add Dataset to Quote eus_ESP_PHON Appen Global 发音词典 巴斯克语 西班牙 N/A N/A N/A N/A 10 000 N/A text 巴斯克(西班牙)发音词典
Dataset 文本 希伯来语(以色列)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 31,000个单词 Add Dataset to Quote heb_ISR_PHON Appen Global 发音词典 希伯来语 以色列 N/A N/A N/A N/A 31 000 N/A text 希伯来语(以色列)发音词典
Dataset 音频 希伯来语(以色列)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 34小时 Add Dataset to Quote HEB_ASR001 Appen Global 对话录音 希伯来语 以色列 低背景噪音 200 2 可根据要求提供 19 250 8 alaw或wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
希伯来语(以色列)对话式的电话录音语料库
Dataset 文本 希腊语(希腊)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 5,000个单词 Add Dataset to Quote ell_GRC_PHON Appen Global 发音词典 希腊语 希腊 N/A N/A N/A N/A 5 000 N/A text 希腊语(希腊)发音词典
Dataset 音频 希腊语(希腊)有定稿的智能手机录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 移动电话 Unit: 191小时 Add Dataset to Quote GRE_ASR001_CN Appen China 有定稿的录音 希腊语 希腊 低背景噪音(家庭/办公室) 287 1 54 113 68 271 16 wav 数据集已完全转录 希腊语(希腊)有定稿的智能手机录音语料库
Dataset 文本 广东话(中国)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 37,000个单词 Add Dataset to Quote yue_CHN_PHON Appen Global 发音词典 广东话 (粤语) 中国 N/A N/A N/A N/A 37 000 N/A text 简体 广东话(中国)发音词典
Dataset 文本 广东话(中国)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 40,000个单词 Add Dataset to Quote yue_CHN_PHON Appen Global 发音词典 广东话 (粤语) 中国 N/A N/A N/A N/A 40 000 N/A text 繁体 广东话(中国)发音词典
Dataset 文本 广东话(中国)词性词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 10,000个单词 Add Dataset to Quote yue_HKG_POS Appen Global 词性词典 广东话 (粤语) 中国 N/A N/A N/A N/A 10 000 N/A text 繁体 广东话(中国)词性词典
Dataset 音频 广东语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 4.06小时 Add Dataset to Quote GUANGDONG_ASR001_CN Appen China 语料朗读 广东 中国 低背景噪音(家庭/办公室) 8   NA NA 16 wav 广东语音数据库
Dataset 文本 库尔曼吉(土耳其)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 60,000个单词 Add Dataset to Quote kur_TUR_PHON Appen Global 发音词典 库尔德语 土耳其 N/A N/A N/A N/A 60 000 N/A text 库尔曼吉(土耳其)发音词典
Dataset 音频 德语 (德国)自由说语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 20.19小时 Add Dataset to Quote DEU_ASR004_CN Appen China 自由说 德语 (德国) 德国 低背景噪音(家庭/办公室) 80 1 NA NA 16 wav 德语 (德国)自由说语音数据库
Dataset 音频 德语(卢森堡)电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 仅固定电话 Unit: 33小时 Add Dataset to Quote Luxembourgish German SpeechDat(II) FDB-500 (FIXED1LG) Nuance 有定稿的录音 德语 卢森堡 低背景噪音 500 1 26 500 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制53个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
德语(卢森堡)电话录音语料库
Dataset 音频 德语(土耳其)电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 移动电话和固定电话 Unit: 31小时 Add Dataset to Quote OrienTel German Spoken by Turkish Nuance 有定稿的录音 德语 土耳其 低背景噪音 300 1 15 600 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制52个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
德语(土耳其)电话录音语料库
Dataset 文本 德语(德国)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 146,000个单词 Add Dataset to Quote deu_DEU_PHON Appen Global 发音词典 德语 德国 N/A N/A N/A N/A 146 000 N/A text 德语(德国)发音词典
Dataset 音频 德语(德国)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 16小时 Add Dataset to Quote DEU_ASR001 Appen Global 有定稿的录音 德语 德国 低背景噪音(录音棚) 127 2 12 700 6 826 16 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
每个发音人录制100个语料,语料包括数字,自然数,人名,城市名,电话号码,通用指令和特定指令,语音丰富的句子和单词
德语(德国)有定稿的麦克风录音语料库
Dataset 音频 德语(德国)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 25小时 Add Dataset to Quote DEU_ASR003 Global Phone 有定稿的录音 德语 德国 低背景噪音(家庭/办公室) 77 1 10 085 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
德语(德国)有定稿的麦克风录音语料库
Dataset 音频 德语(德国)电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 仅固定电话 Unit: 31小时 Add Dataset to Quote German SpeechDat (II) FDB-1000 Nuance 有定稿的录音 德语 德国 低背景噪音(家庭/办公室) 988 1 43 000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制44个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
德语(德国)电话录音语料库
Dataset 音频 德语(德国)电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 仅固定电话 Unit: 268小时 Add Dataset to Quote German SpeechDat(II) FDB-4000 Nuance 有定稿的录音 德语 德国 低背景噪音(家庭/办公室) 4 000 1 160 000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制40个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
德语(德国)电话录音语料库
Dataset 文本 德语(瑞士)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 15,000个单词 Add Dataset to Quote deu_CHE_PHON Appen Global 发音词典 德语 瑞士 N/A N/A N/A N/A 15 000 N/A text 德语(瑞士)发音词典
Dataset 音频 德语(瑞士)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 53小时 Add Dataset to Quote Speecon German (Switzerland) database Nuance 有定稿的录音 德语 瑞士 混合(办公室/娱乐场所/车内/公共场所) 600(550个成年语料提供者及50个儿童语料提供者) 4 170 000 可根据要求提供 16 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料
德语(瑞士)有定稿的麦克风录音语料库
Dataset 文本 意大利文(意大利)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 197,000个单词 Add Dataset to Quote ita_ITA_PHON Appen Global 发音词典 意大利语 意大利 N/A N/A N/A N/A 197 000 N/A text 意大利文(意大利)发音词典
Dataset 音频 意大利文(意大利)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 36小时 Add Dataset to Quote ITA_ASR003 Appen Global 对话录音 意大利语 意大利 低背景噪音 200 2 可根据要求提供 18 974 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
意大利文(意大利)对话式的电话录音语料库
Dataset 音频 意大利文(意大利)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 44小时 Add Dataset to Quote ITA_ASR001 Appen Global 有定稿的录音 意大利语 意大利 混合 200 4 40 000 7 316 22 alaw 完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个发音人录制200个语料,语料包括100个命令和特定指令,100个语音丰富的句子
意大利文(意大利)有定稿的麦克风录音语料库
Dataset 音频 意大利文(意大利)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 车载HMI及娱乐设备 Recording Device: 麦克风 Unit: 47小时 Add Dataset to Quote ITA_ASR002 Appen Global 有定稿的录音 意大利语 意大利 混合(车内) 103 4 35 875 10 366 48 alaw 完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个发音人录制350个语料,语料包括数字,街道名称,通用指令和特定指令,语音丰富的句子和单词
每个发音人录制了1到2段样本,第一段在未熄火的停靠车辆中录制,第二段在以每小时60英里(100 公里 / 小时)的速度行驶的车辆中录制
意大利文(意大利)有定稿的麦克风录音语料库
Dataset 音频 意大利文(意大利)有定稿的麦克风录音语料库 Common Use Cases: TTS Recording Device: 麦克风 Unit: 3小时 Add Dataset to Quote ITA_TTS001 Appen Global 有定稿的录音 意大利语 意大利 低背景噪音(录音棚) 1 1 3 300 可根据要求提供 22 alaw 数据集随附一个发音词典,其中包含该数据集中所说的所有单词
每个发音人录制3300条语料,包括语音丰富的句子
意大利文(意大利)有定稿的麦克风录音语料库
Dataset 音频 意大利文(意大利)电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 仅固定电话 Unit: 38小时 Add Dataset to Quote Italian Fixed Network Speech SpeechDat(M) Corpus Nuance 有定稿的录音 意大利语 意大利 低背景噪音(家庭/办公室) 1 000 1 39 000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制39个语料,语料包含连续和间隔的数字,自然数,金额,拼写单词,时间和日期短语,是/否问题,常见的应用词汇,在短语中的应用词汇以及语音丰富的句子
意大利文(意大利)电话录音语料库
Dataset 音频 意大利文(意大利)电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 仅固定电话 Unit: 228小时 Add Dataset to Quote Italian SpeechDat(II) FDB-3000 Nuance 有定稿的录音 意大利语 意大利 低背景噪音(家庭/办公室) 3 040 1 134 000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制44个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
意大利文(意大利)电话录音语料库
Dataset 音频 意大利文(意大利)电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 移动电话 Unit: 103小时 Add Dataset to Quote Italian SpeechDat(II) MDB-250 Nuance 有定稿的录音 意大利语 意大利 低背景噪音(家庭/办公室) 375 1 19 000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制51个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
意大利文(意大利)电话录音语料库
Dataset 音频 意大利文(意大利)电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 移动电话 Unit: 13小时 Add Dataset to Quote SpeechDat(M) Italian Mobile Network Speech Database Nuance 有定稿的录音 意大利语 意大利 低背景噪音(家庭/办公室) 342 1 13 500 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制40个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
意大利文(意大利)电话录音语料库
Dataset 文本 意大利文(意大利)词性词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 147,000个单词 Add Dataset to Quote ita_ITA_POS Appen Global 词性词典 意大利语 意大利 N/A N/A N/A N/A 147 000 N/A text 意大利文(意大利)词性词典
Dataset 音频 意大利自由说语语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 3.8小时 Add Dataset to Quote ITA_ASR001_CN Appen China 自由说 意大利语 意大利 低背景噪音(家庭/办公室) 6   NA NA 16 wav 意大利自由说语语音数据库
Dataset 文本 托皮辛(巴布亚新几内亚)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 10,000个单词 Add Dataset to Quote tpi_PNG_PHON Appen Global 发音词典 托克皮辛语 巴布亚新几内亚 N/A N/A N/A N/A 10 000 N/A text 托皮辛(巴布亚新几内亚)发音词典
Dataset 文本 挪威语(挪威)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 115,000个单词 Add Dataset to Quote nor_NOR_PHON Appen Global 发音词典 挪威语 挪威 N/A N/A N/A N/A 115 000 N/A text 挪威语(挪威)发音词典
Dataset 文本 挪威语(挪威)词性词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 3,000个单词 Add Dataset to Quote nor_NOR_POS Appen Global 词性词典 挪威语 挪威 N/A N/A N/A N/A 3 000 N/A text 挪威语(挪威)词性词典
Dataset 文本 捷克文(捷克共和国)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 50,000个单词 Add Dataset to Quote ces_CZE_PHON Appen Global 发音词典 捷克语 捷克共和国 N/A N/A N/A N/A 50 000 N/A text 捷克文(捷克共和国)发音词典
Dataset 音频 捷克文(捷克共和国)有定稿的电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 仅固定电话 Unit: 93小时 Add Dataset to Quote Czech SpeechDat(E) Dataset Nuance 有定稿的录音 捷克语 捷克共和国 低背景噪音 1 000 1 52 000 可根据要求提供 8 alaw 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制52个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
捷克文(捷克共和国)有定稿的电话录音语料库
Dataset 音频 捷克文(捷克共和国)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 31小时 Add Dataset to Quote CZE_ASR001 Global Phone 有定稿的录音 捷克语 捷克共和国 低背景噪音(家庭/办公室) 102 1 12 425 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
捷克文(捷克共和国)有定稿的麦克风录音语料库
Dataset 音频 斯洛伐克(Slovakia)有定稿的电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 仅固定电话 Unit: 65小时 Add Dataset to Quote Slovak SpeechDat(E) Database Nuance 有定稿的录音 斯洛伐克语 斯洛伐克 低背景噪音 1 000 1 48 000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
斯洛伐克(Slovakia)有定稿的电话录音语料库
Dataset 音频 斯洛文尼亚语(Slovenian)电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 仅固定电话 Unit: 76小时 Add Dataset to Quote Slovenian SpeechDat(II) FDB-1000 Nuance 有定稿的录音 斯洛维尼亚语 斯洛文尼亚 低背景噪音(家庭/办公室) 1 000 1 40 000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制大约40个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
斯洛文尼亚语(Slovenian)电话录音语料库
Dataset 文本 斯瓦希里语(肯尼亚)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 66,000个单词 Add Dataset to Quote swa_KEN_PHON Appen Global 发音词典 斯瓦西里语 肯尼亚 N/A N/A N/A N/A 66 000 N/A text 斯瓦希里语(肯尼亚)发音词典
Dataset 音频 旁遮普语(巴基斯坦)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 20小时 Add Dataset to Quote PAP_ASR001 Appen Global 对话录音 旁遮普语 巴基斯坦 低背景噪音 205 2 可根据要求提供 7 298 8 alaw 数据集已完全转录并加盖了时间戳
数据集附带一个包含所有转录词的发音词典
在71%的对话中,对话双方(呼入者和呼出者)的说话内容都被收集转录了,在剩下的29%的对话中,只有一半的对话被收集并转录了
旁遮普语(巴基斯坦)对话式的电话录音语料库
Dataset 文本 日语NER语料库 Common Use Cases: NER, 内容分类, 搜索引擎 Recording Device: N/A Unit: 20,629个句子 Add Dataset to Quote JPY_NER001 Appen Global NER 日语 日本 N/A N/A N/A 20 629 可根据要求提供 N/A text 日语NER语料库
Dataset 音频 日语自由说语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 3.38小时 Add Dataset to Quote JAP_ASR001_CN Appen China 自由说 日语 日本 低背景噪音(家庭/办公室) 6   NA NA 16 wav 日语自由说语音数据库
Dataset 文本 日语(日本)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 262,000个单词 Add Dataset to Quote jpn_JPN_PHON Appen Global 发音词典 日语 日本 N/A N/A N/A N/A 262 000 N/A text 日语(日本)发音词典
Dataset 音频 日语(日本)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 33小时 Add Dataset to Quote JPN_ASR001 Global Phone 有定稿的录音 日语 日本 低背景噪音(家庭/办公室) 144 1 13 067 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
日语(日本)有定稿的麦克风录音语料库
Dataset 音频 日语(日本)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 57小时 Add Dataset to Quote Speecon Japanese Nuance 有定稿的录音 日语 日本 混合(办公室/娱乐场所/车内/公共场所) 600(550个成年语料提供者及50个儿童语料提供者) 4 170 000 可根据要求提供 16 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料
日语(日本)有定稿的麦克风录音语料库
Dataset 文本 日语(日本)词性词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 265,000个单词 Add Dataset to Quote jpn_JPN_POS Appen Global 词性词典 日语 日本 N/A N/A N/A N/A 265 000 N/A text 日语(日本)词性词典
Dataset 音频 昆明语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 2.53小时 Add Dataset to Quote KUNMING_ASR001_CN Appen China 语料朗读 昆明 中国 低背景噪音(家庭/办公室) 8   NA NA 16 wav 昆明语音数据库
Dataset 文本 普什图(阿富汗)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 65,000个单词 Add Dataset to Quote pus_AFG_PHON Appen Global 发音词典 普什图语 阿富汗 N/A N/A N/A N/A 65 000 N/A text 普什图(阿富汗)发音词典
Dataset 音频 普什图(阿富汗)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 55小时 Add Dataset to Quote PAS_ASR001 Appen Global 对话录音 普什图语 阿富汗 低背景噪音 967 2 可根据要求提供 13 633 8 wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
在大多数的通话中,对话双方的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话被收集并转录了
普什图(阿富汗)对话式的电话录音语料库
Dataset 音频 普什图(阿富汗)对话式麦克风录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 麦克风 Unit: 39小时 Add Dataset to Quote PAS_ASR002 Appen Global 对话录音 普什图语 阿富汗 低背景噪音 40 2 可根据要求提供 9 480 16 wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
转录文本可全部被翻译成法文, 作为可选的额外购买项
平均通话时间为120分钟,每则通话中由一名发言人担任采访者,另一名发言人担任受访者,模仿类似于TransTAC风格的场景(例如民政事务询问,检查站询问等)
面试官出现在不止一组对话中,但每组对话中的被面试者都是唯一的
普什图(阿富汗)对话式麦克风录音语料库
Dataset 音频 普什图(阿富汗)广播录音数据库 Common Use Cases: ASR, 自动字幕, 关键字检索 Recording Device: 麦克风 Unit: 51小时 Add Dataset to Quote PAS_BRC001 Appen Global 广播录音 普什图语 阿富汗 低背景噪音(录音棚) N/A 1 可根据要求提供 可根据要求提供 N/A wav 数据集已完全转录并加上时间戳
数据集主要是语音,不包括音乐或广告
数据类型包括:脱口秀,访谈,新闻广播(不包括主持人阅读的新闻)
普什图(阿富汗)广播录音数据库
Dataset 文本 普通话NER语料库 Common Use Cases: NER, 内容分类, 搜索引擎 Recording Device: N/A Unit: 17,313个句子 Add Dataset to Quote MAC_NER001 Appen Global NER 普通话 中国 N/A N/A N/A 17 313 可根据要求提供 N/A text 普通话NER语料库
Dataset 音频 普通话(中国)有定稿的电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 移动电话和固定电话 Unit: 323小时 Add Dataset to Quote MAC_ASR001 Appen Global 有定稿的录音 普通话 中国 混合 2 000 1 200 000 7 145 8 alaw 完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典[SAMPA]
每个发音人录制98个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令(从215个指令中挑选),语音丰富的句子和单词
普通话(中国)有定稿的电话录音语料库
Dataset 音频 普通话(中国)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 26小时 Add Dataset to Quote MAC_ASR002 Global Phone 有定稿的录音 普通话 中国 低背景噪音(家庭/办公室) 132 1 10 225 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
普通话(中国)有定稿的麦克风录音语料库
Dataset 文本 普通话(简体)(中国)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 35,000个单词 Add Dataset to Quote zho_CHN_PHON Appen Global 发音词典 中文(简体) 中国 N/A N/A N/A N/A 35 000 N/A text 普通话(简体)(中国)发音词典
Dataset 文本 普通话(繁体)(台湾)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 50,000个单词 Add Dataset to Quote zho_TWN_PHON Appen Global 发音词典 中文(繁体) 台湾 N/A N/A N/A N/A 50 000 N/A text 普通话(繁体)(台湾)发音词典
Dataset 音频 杭州方言语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 2.49小时 Add Dataset to Quote HANGZHOU_ASR001_CN Appen China 语料朗读 杭州方言 中国 低背景噪音(家庭/办公室) 10   NA NA 16 wav 杭州方言语音数据库
Dataset 音频 武汉方言(中国)多人对话式录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 录音笔/麦克风 Unit: 42.7小时 Add Dataset to Quote WUHAN_ASR001_CN Appen China 对话录音 武汉方言 中国 低背景噪音(家庭/办公室) 135 1 NA NA 16 wav 覆盖地区: 武汉市下辖的江岸、江汉、硚口、汉阳、武昌五区 注:数据不包含东北郊区口音数据以及未成年人录制数据。 单人发音时长约40分钟,单个语音对话20~30分钟之间 内容为2~5人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。 数据库只是语音库,不含有转写文字 武汉方言(中国)多人对话式录音语料库
Dataset 音频 武汉方言(中国)多人对话式录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话 Unit: 58.1小时 Add Dataset to Quote WUHAN_ASR002_CN Appen China 对话录音 武汉方言 中国 低背景噪音(家庭/办公室) 180 1 NA NA 8 wav 覆盖地区:武汉市下辖的江岸、江汉、硚口、汉阳、武昌五区 注:数据不包含东北郊区口音数据以及未成年人录制数据。 单人发音时长约40分钟,单个语音对话20~30分钟之间 内容为2~5人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。 数据库只是语音库,不含有转写文字 武汉方言(中国)多人对话式录音语料库
Dataset 音频 武汉语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 3.19小时 Add Dataset to Quote WUHAN_ASR003_CN Appen China 语料朗读 武汉 中国 低背景噪音(家庭/办公室) 8   NA NA 16 wav 武汉语音数据库
Dataset 音频 河南语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 2.9小时 Add Dataset to Quote HENAN_ASR001_CN Appen China 语料朗读 河南 中国 低背景噪音(家庭/办公室) 7   NA NA 16 wav 河南语音数据库
Dataset 音频 法语 (法国)自由说语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 16.6小时 Add Dataset to Quote FRA_ASR004_CN Appen China 自由说 法语 (法国) 法国 低背景噪音(家庭/办公室) 96 1 NA NA 16 wav 法语 (法国)自由说语音数据库
Dataset 文本 法语(加拿大)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 67,000个单词 Add Dataset to Quote fra_CAN_PHON Appen Global 发音词典 法语 加拿大 N/A N/A N/A N/A 67 000 N/A text 法语(加拿大)发音词典
Dataset 音频 法语(加拿大)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 9小时 Add Dataset to Quote FRC_ASR003 Appen Global 对话录音 法语 加拿大 混合 68 2 可根据要求提供 6 022 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
平均通话时长为10到15分钟
在大多数通话中,只有一半的对话被收集并转录了,但是对于一小部分的通话,对话双方(呼入者和呼出者)的说话内容都被收集并转录了
法语(加拿大)对话式的电话录音语料库
Dataset 音频 法语(加拿大)有定稿的电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 移动电话 Unit: 131小时 Add Dataset to Quote FRC_ASR001 Appen Global 有定稿的录音 法语 加拿大 混合 1 000 1 100 000 11 697 8 alaw 完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典[SAMPA]
每个发音人录制100个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
法语(加拿大)有定稿的电话录音语料库
Dataset 音频 法语(加拿大)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 46小时 Add Dataset to Quote FRC_ASR002 Appen Global 有定稿的录音 法语 加拿大 低背景噪音(家庭/办公室) 150 1 22 500 10 755 16 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
每个发音人录制150个语料,语料包含数字,数字串(随机生成的),地址,语音丰富的句子和单词
法语(加拿大)有定稿的麦克风录音语料库
Dataset 音频 法语(卢森堡)电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 仅固定电话 Unit: 45小时 Add Dataset to Quote Luxembourgish French SpeechDat(II) FDB-500 (FIXED1LF) Nuance 有定稿的录音 法语 卢森堡 低背景噪音 614 1 32 000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制53个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
法语(卢森堡)电话录音语料库
Dataset 音频 法语(比利时)有定稿的电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 仅固定电话 Unit: 76小时 Add Dataset to Quote Belgian French SpeechDat(II) FDB-1000 (FIXED1BF) Nuance 有定稿的录音 法语 比利时 低背景噪音 1 000 1 53 000 可根据要求提供 8 alaw 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制53个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令
法语(比利时)有定稿的电话录音语料库
Dataset 文本 法语(法国)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 112,000个单词 Add Dataset to Quote fra_FRA_PHON Appen Global 发音词典 法语 法国 N/A N/A N/A N/A 112 000 N/A text 法语(法国)发音词典
Dataset 音频 法语(法国)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 25小时 Add Dataset to Quote FRF_ASR001 Appen Global 对话录音 法语 法国 低背景噪音 563 2 可根据要求提供 11 922 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
在大多数的通话中,对话双方的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话被收集并转录了
法语(法国)对话式的电话录音语料库
Dataset 音频 法语(法国)有定稿的电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 仅固定电话 Unit: 41小时 Add Dataset to Quote French SpeechDat(II) FDB-1000 Nuance 有定稿的录音 法语 法国 低背景噪音(家庭/办公室) 1 017 1 48 000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
法语(法国)有定稿的电话录音语料库
Dataset 音频 法语(法国)有定稿的电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 仅固定电话 Unit: 305小时 Add Dataset to Quote French SpeechDat(II) FDB-5000 Nuance 有定稿的录音 法语 法国 低背景噪音 5 040 1 237 000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制47个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
法语(法国)有定稿的电话录音语料库
Dataset 音频 法语(法国)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 26小时 Add Dataset to Quote FRF_ASR003 Global Phone 有定稿的录音 法语 法国 低背景噪音(家庭/办公室) 98 1 10 273 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
法语(法国)有定稿的麦克风录音语料库
Dataset 文本 法语(法国)词性词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 95,000个单词 Add Dataset to Quote fra_FRA_POS Appen Global 词性词典 法语 法国 N/A N/A N/A N/A 95 000 N/A text 法语(法国)词性词典
Dataset 音频 法语(法国)车内录音语料库 Common Use Cases: ASR, 虚拟助手, 车载HMI及娱乐设备 Recording Device: 麦克风和移动电话 Unit: Add Dataset to Quote French SpeechDat-Car Nuance 有定稿的录音 法语 法国 混合(车内) 300 5 37 500 可根据要求提供 16和8 可根据要求提供 数据集已完全转录,并附有发音词典和验证报告
每个发音人录制大约125个语料,语料包含数字,自然数,字母串,个人、地点和企业名称(一些是自由发挥的),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的语料
法语(法国)车内录音语料库
Dataset 文本 法语(阿尔及利亚)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 4,000个单词 Add Dataset to Quote fra_DZA_PHON Appen Global 发音词典 法语 阿尔及利亚 N/A N/A N/A N/A 4 000 N/A text 阿拉伯文字 法语(阿尔及利亚)发音词典
Dataset 文本 波兰语(波兰)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 40,000个单词 Add Dataset to Quote pol_POL_PHON Appen Global 发音词典 波兰语 波兰 N/A N/A N/A N/A 40 000 N/A text 波兰语(波兰)发音词典
Dataset 音频 波兰语(波兰)有定稿的智能手机录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 移动电话 Unit: 293小时 Add Dataset to Quote POL_ASR002_CN Appen China 有定稿的录音 波兰语 波兰 低背景噪音(家庭/办公室) 353 1 106 674 168 544 16 wav 数据集已完全转录 波兰语(波兰)有定稿的智能手机录音语料库
Dataset 音频 波兰语(波兰)有定稿的电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 仅固定电话 Unit: 78小时 Add Dataset to Quote Polish SpeechDat(E) Database Nuance 有定稿的录音 波兰语 波兰 低背景噪音 1 000 1 48 000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
波兰语(波兰)有定稿的电话录音语料库
Dataset 音频 波兰语(波兰)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 25小时 Add Dataset to Quote POL_ASR001 Global Phone 有定稿的录音 波兰语 波兰 低背景噪音(家庭/办公室) 99 1 10 130 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
波兰语(波兰)有定稿的麦克风录音语料库
Dataset 文本 波兰语(波兰)词性词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 4,000个单词 Add Dataset to Quote pol_POL_POS Appen Global 词性词典 波兰语 波兰 N/A N/A N/A N/A 4 000 N/A text 波兰语(波兰)词性词典
Dataset 文本 波斯语NER语料库 Common Use Cases: NER, 内容分类, 搜索引擎 Recording Device: N/A Unit: 19,584个句子 Add Dataset to Quote FAR_NER001 Appen Global NER 波斯语 伊朗 N/A N/A N/A 19 584 可根据要求提供 N/A text 波斯语NER语料库
Dataset 音频 波斯语(伊朗)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 30小时 Add Dataset to Quote FAR_ASR002 Appen Global 对话录音 波斯语 伊朗 混合 1 000 2 可根据要求提供 12 358 8 wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
波斯语(伊朗)对话式的电话录音语料库
Dataset 音频 波斯语(伊朗)有定稿的电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 移动电话和固定电话 Unit: 85小时 Add Dataset to Quote FAR_ASR001 Appen Global 有定稿的录音 波斯语 伊朗 混合 789 1 38 400 8 716 8 alaw 完全转录为OrienTel类型
数据集附带一个包含所有转录词的发音词典[SAMPA]
每个发音人录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
波斯语(伊朗)有定稿的电话录音语料库
Dataset 文本 泰卢固语(印度)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 50,000个单词 Add Dataset to Quote tel_IND_PHON Appen Global 发音词典 泰卢固语 印度 N/A N/A N/A N/A 50 000 N/A text 泰卢固语(印度)发音词典
Dataset 文本 泰米尔文(印度)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 105,000个单词 Add Dataset to Quote tam_IND_PHON Appen Global 发音词典 泰米尔语 印度 N/A N/A N/A N/A 105 000 N/A text 泰米尔文(印度)发音词典
Dataset 音频 泰语自由说语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 2.95小时 Add Dataset to Quote THA_ASR002_CN Appen China 自由说 泰语(泰国) 泰国 低背景噪音(家庭/办公室)     NA NA 17 wav 泰语自由说语音数据库
Dataset 图像 泰语(泰国)印刷文本OCR Common Use Cases: 文件处理, 文件搜索 Recording Device: 照相机 Unit: 1219张图片 Add Dataset to Quote IMG_OCR_THA_CN Appen China OCR 泰语 泰国 不同光线 10 NA NA NA NA jpg 包含文字的图像,例如购物收据,票据,发票,出租车发票等等 泰语(泰国)印刷文本OCR
Dataset 文本 泰语(泰国)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 30,000个单词 Add Dataset to Quote tha_THA_PHON Appen Global 发音词典 泰语 泰国 N/A N/A N/A N/A 30 000 N/A text 泰语(泰国)发音词典
Dataset 音频 泰语(泰国)麦克风录音数据库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 28小时 Add Dataset to Quote THA_ASR001 Global Phone 有定稿的录音 泰语 泰国 低背景噪音(家庭/办公室) 98 1 14 039 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
泰语(泰国)麦克风录音数据库
Dataset 文本 海地克里奥尔语(海地)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 15,000个单词 Add Dataset to Quote hat_HTI_PHON Appen Global 发音词典 海地克里奥尔语 海地 N/A N/A N/A N/A 15 000 N/A text 海地克里奥尔语(海地)发音词典
Dataset 文本 湘语(中国)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 10,000个单词 Add Dataset to Quote hsn_CHN_PHON Appen Global 发音词典 湘语 中国 N/A N/A N/A N/A 10 000 N/A text 湘语(中国)发音词典
Dataset 文本 爪哇语(印度尼西亚)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 20,000个单词 Add Dataset to Quote jav_IDN_PHON Appen Global 发音词典 爪哇语 印度尼西亚 N/A N/A N/A N/A 20 000 N/A text 爪哇语(印度尼西亚)发音词典
Dataset 文本 瑞典文(瑞典)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 100,000个单词 Add Dataset to Quote swe_SWE_PHON Appen Global 发音词典 瑞典语 瑞典 N/A N/A N/A N/A 100 000 N/A text 瑞典文(瑞典)发音词典
Dataset 文本 瑞典文(瑞典)词性词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 105,000个单词 Add Dataset to Quote swe_SWE_POS Appen Global 词性词典 瑞典语 瑞典 N/A N/A N/A N/A 105 000 N/A text 瑞典文(瑞典)词性词典
Dataset 音频 瑞典(瑞典/芬兰)麦克风录音数据库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 30小时 Add Dataset to Quote SWE_ASR001 Global Phone 有定稿的录音 瑞典语 瑞典-芬兰 低背景噪音(家庭/办公室) 98 1 11 816 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
瑞典(瑞典/芬兰)麦克风录音数据库
Dataset 文本 瓜拉尼语(巴拉圭)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 35,000个单词 Add Dataset to Quote grn_PRY_PHON Appen Global 发音词典 瓜拉尼语 巴拉圭 N/A N/A N/A N/A 35 000 N/A text 瓜拉尼语(巴拉圭)发音词典
Dataset 文本 祖鲁人(南非)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 75,000个单词 Add Dataset to Quote zul_ZAF_PHON Appen Global 发音词典 祖鲁语 南非 N/A N/A N/A N/A 75 000 N/A text 祖鲁人(南非)发音词典
Dataset 文本 立陶宛语(立陶宛)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 60,000个单词 Add Dataset to Quote lit_LTU_PHON Appen Global 发音词典 立陶宛语 立陶宛 N/A N/A N/A N/A 60 000 N/A text 立陶宛语(立陶宛)发音词典
Dataset 图像 简体中文印刷文本OCR Common Use Cases: 文件处理, 文件搜索 Recording Device: 照相机 Unit: 200张图片 Add Dataset to Quote IMG_OCR_MAC_CN Appen China OCR N/A 中国 不同光线 30 NA NA NA NA jpg 每张图片中的文字均被线条边框所标记
包含大量中文的图像,例如书籍,出版物,海报,收据,PPT以及印刷品等等
简体中文印刷文本OCR
Dataset 文本 索拉尼(伊拉克)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 25,000个单词 Add Dataset to Quote kur_IRQ_PHON Appen Global 发音词典 索马里语 伊拉克 N/A N/A N/A N/A 25 000 N/A text 索拉尼(伊拉克)发音词典
Dataset 文本 索马里(索马里)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 76,000个单词 Add Dataset to Quote som_SOM_PHON Appen Global 发音词典 索马里语 索马里 N/A N/A N/A N/A 76 000 N/A text 索马里(索马里)发音词典
Dataset 音频 索马里(索马里)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 50小时 Add Dataset to Quote SOM_ASR001 Appen Global 对话录音 索马里语 索马里 低背景噪音 1 000 2 可根据要求提供 23 217 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
索马里(索马里)对话式的电话录音语料库
Dataset 音频 维吾尔方言(中国)双人对话式录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话 Unit: 122小时 Add Dataset to Quote WWE_ASR001_CN Appen China 对话录音 维吾尔族语 中国 低背景噪音(家庭/办公室) 231 1 NA NA 16 wav 覆盖地区: 和田方言,中央方言。 单人发音时长约30分钟,内容为2人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。 数据库只是语音库,不含有转写文字 维吾尔方言(中国)双人对话式录音语料库
Dataset 音频 维语语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 3.9小时 Add Dataset to Quote WWE_ASR002_CN Appen China 语料朗读 维语 中国 低背景噪音(家庭/办公室) N/A   NA NA 16 wav 主题有歌曲,赛事,游戏 维语语音数据库
Dataset 文本 罗马尼亚语(罗马尼亚)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 15,000个单词 Add Dataset to Quote ron_ROU_PHON Appen Global 发音词典 罗马尼亚语 罗马尼亚 N/A N/A N/A N/A 15 000 N/A text 罗马尼亚语(罗马尼亚)发音词典
Dataset 音频 罗马尼亚语(罗马尼亚)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 37小时 Add Dataset to Quote ROM_ASR001 Appen Global 对话录音 罗马尼亚语 罗马尼亚 低背景噪音 200 2 可根据要求提供 16 658 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
罗马尼亚语(罗马尼亚)对话式的电话录音语料库
Dataset 文本 老挝(老挝)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 9,000个单词 Add Dataset to Quote lao_LAO_PHON Appen Global 发音词典 老挝语 老挝 N/A N/A N/A N/A 9 000 N/A text 老挝(老挝)发音词典
Dataset 图像 芬兰语(芬兰)印刷文本OCR Common Use Cases: 文件处理, 文件搜索 Recording Device: 照相机 Unit: 7293张图片 Add Dataset to Quote IMG_OCR_FIN_CN Appen China OCR 芬兰语 芬兰 不同光线 4 NA NA NA NA jpg 包含文字的图像,例如广告牌,产品外包装,标志牌,杂志以及菜单等等 芬兰语(芬兰)印刷文本OCR
Dataset 文本 芬兰语(芬兰)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 85,000个单词 Add Dataset to Quote fin_FIN_PHON Appen Global 发音词典 芬兰语 芬兰 N/A N/A N/A N/A 85 000 N/A text 芬兰语(芬兰)发音词典
Dataset 文本 芬兰语(芬兰)词性词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 10,000个单词 Add Dataset to Quote fin_FIN_POS Appen Global 词性词典 芬兰语 芬兰 N/A N/A N/A N/A 10 000 N/A text 芬兰语(芬兰)词性词典
Dataset 音频 苏州方言语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 2.84小时 Add Dataset to Quote SUZHOU_ASR001_CN Appen China 语料朗读 苏州方言 中国 低背景噪音(家庭/办公室) 8   NA NA 16 wav 苏州方言语音数据库
Dataset 文本 英文(加拿大)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 50,000个单词 Add Dataset to Quote eng_CAN_PHON Appen Global 发音词典 英语 加拿大 N/A N/A N/A N/A 50 000 N/A text 英文(加拿大)发音词典
Dataset 音频 英文(加拿大)有定稿的电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 移动电话和固定电话 Unit: 144小时 Add Dataset to Quote ENC_ASR001 Appen Global 有定稿的录音 英语 加拿大 混合 1 000 1 99 000 12 483 8 alaw或wav 完全转录为SALA II/SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个发音人录制99个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
英文(加拿大)有定稿的电话录音语料库
Dataset 文本 英文(加拿大)词性词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 3,000个单词 Add Dataset to Quote eng_CAN_POS Appen Global 词性词典 英语 加拿大 N/A N/A N/A N/A 3 000 N/A text 英文(加拿大)词性词典
Dataset 文本 英文(印度)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 60,000个单词 Add Dataset to Quote eng_IND_PHON Appen Global 发音词典 英语 印度 N/A N/A N/A N/A 60 000 N/A text 英文(印度)发音词典
Dataset 音频 英文(印度)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 67小时 Add Dataset to Quote ENI_ASR002 Appen Global 对话录音 英语 印度 低背景噪音 540 2 77 565 11 646 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了271个电话对话
英文(印度)对话式的电话录音语料库
Dataset 音频 英文(印度)有定稿的电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 移动电话和固定电话 Unit: 217小时 Add Dataset to Quote ENI_ASR001 Appen Global 有定稿的录音 英语 印度 混合 2 358 1 117 900 9 190 8 alaw 完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典[SAMPA]
每个发音人录制49个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
英文(印度)有定稿的电话录音语料库
Dataset 文本 英文(印度)词性词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 13,000个单词 Add Dataset to Quote eng_IND_POS Appen Global 词性词典 英语 印度 N/A N/A N/A N/A 13 000 N/A text 英文(印度)词性词典
Dataset 文本 英文(菲律宾)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 5,000个单词 Add Dataset to Quote eng_PHL_PHON Appen Global 发音词典 英语 菲律宾 N/A N/A N/A N/A 5 000 N/A text 英文(菲律宾)发音词典
Dataset 音频 英文(菲律宾)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 53小时 Add Dataset to Quote ENF_ASR001 Appen Global 对话录音 英语 菲律宾 低背景噪音 450 2 41 602 7 272 8 alaw或wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
平均通话时长为10到15分钟
英文(菲律宾)对话式的电话录音语料库
Dataset 音频 英文(阿拉伯文-黎凡特/埃及)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 28小时 Add Dataset to Quote ENA_ASR001 Appen Global 对话录音 英语 埃及 低背景噪音 250 2 可根据要求提供 5 619 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
平均通话时长为10到15分钟
英文(阿拉伯文-黎凡特/埃及)对话式的电话录音语料库
Dataset 文本 英语NER语料库 Common Use Cases: NER, 内容分类, 搜索引擎 Recording Device: N/A Unit: 22,768个句子 Add Dataset to Quote ENG_NER001 Appen Global NER 英语 N/A N/A N/A N/A 22 768 可根据要求提供 N/A text 英语NER语料库
Dataset 文本 英语(澳大利亚)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 157,000个单词 Add Dataset to Quote eng_AUS_PHON Appen Global 发音词典 英语 澳大利亚 N/A N/A N/A N/A 157 000 N/A text 英语(澳大利亚)发音词典
Dataset 音频 英语(澳大利亚)有定稿的电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 移动电话和固定电话 Unit: 92小时 Add Dataset to Quote AUS_ASR001 Appen Global 有定稿的录音 英语 澳大利亚 低背景噪音(家庭/办公室) 500 1 82 500 35 137 8 alaw 完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个发音人录制162个朗读录音,录音包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令(从215个指令中挑选),语音丰富的句子和单词
英语(澳大利亚)有定稿的电话录音语料库
Dataset 音频 英语(澳大利亚)有定稿的电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 移动电话和固定电话 Unit: 118小时 Add Dataset to Quote AUS_ASR002 Appen Global 有定稿的录音 英语 澳大利亚 混合 1 000 1 75 000 19 8 alaw 完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个发音人录制75个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
语料包含了有定稿的录音和自由发挥的录音,其中每个稿子包含了5条自由发挥的录音
英语(澳大利亚)有定稿的电话录音语料库
Dataset 文本 英语(爱尔兰)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 12,000个单词 Add Dataset to Quote eng_IRL_PHON Appen Global 发音词典 英语 爱尔兰 N/A N/A N/A N/A 12 000 N/A text 英语(爱尔兰)发音词典
Dataset 文本 英语(纽西兰)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 50,000个单词 Add Dataset to Quote eng_NZL_PHON Appen Global 发音词典 英语 纽西兰 N/A N/A N/A N/A 50 000 N/A text 英语(纽西兰)发音词典
Dataset 文本 英语(美国)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 330,000个单词 Add Dataset to Quote eng_USA_PHON Appen Global 发音词典 英语 美国 N/A N/A N/A N/A 330 000 N/A text 英语(美国)发音词典
Dataset 音频 英语(美国)对话式的智能手机录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话 Unit: 1000小时 Add Dataset to Quote USE_ASR003 Appen Global 对话录音 英语 美国 低背景噪音 2 000 1 500 000 52 586 16 wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
对话涵盖了各种主题,包括学习/专业/工作,家乡,生活安排,天气和季节,准时,电视节目/电影
英语(美国)对话式的智能手机录音语料库
Dataset 音频 英语(美国)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 53小时 Add Dataset to Quote Speecon English (USA) database Nuance 有定稿的录音 英语 美国 混合(办公室/娱乐场所/车内/公共场所) 600(550个成年语料提供者及50个儿童语料提供者) 4 170 000 可根据要求提供 16 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料
英语(美国)有定稿的麦克风录音语料库
Dataset 音频 英语(美国)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 62小时 Add Dataset to Quote USE_ASR001 Appen Global 有定稿的录音 英语 美国 低背景噪音(录音棚) 200 2 80 000 18 318 48 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
每个发音人录制400个语料,语料包括数字,自然数,人名,城市名,电话号码,通用指令和特定指令,语音丰富的句子和单词
英语(美国)有定稿的麦克风录音语料库
Dataset 文本 英语(美国)词性词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 263,000个单词 Add Dataset to Quote eng_USA_POS Appen Global 词性词典 英语 美国 N/A N/A N/A N/A 263 000 N/A text 英语(美国)词性词典
Dataset 音频 英语(英国) Common Use Cases: TTS Recording Device: 头戴式麦克风 Unit: 11小时 Add Dataset to Quote TC-STAR female baseline voice Laura Nuance 有定稿的录音 英语 英国 低背景噪音(录音棚) 1 1 可根据要求提供 可根据要求提供 96 可根据要求提供 数据集包括人工正字法转录的转录文件,自动分割的音素,自动生成的音高标记(已手动检查了一定比例的语音段和音高标记)
数据集附有一个包含词性,词元和音标的发音词典
英语(英国)
Dataset 音频 英语(英国) Common Use Cases: TTS Recording Device: 头戴式麦克风 Unit: 7小时 Add Dataset to Quote TC-STAR male baseline voice Ian Nuance 有定稿的录音 英语 英国 低背景噪音(录音棚) 1 1 可根据要求提供 可根据要求提供 96 可根据要求提供 数据集包括人工正字法转录的转录文件,自动分割的音素,自动生成的音高标记(已手动检查了一定比例的语音段和音高标记)
数据集附有一个包含词性,词元和音标的发音词典
英语(英国)
Dataset 文本 英语(英国)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 195,000个单词 Add Dataset to Quote eng_GBR_PHON Appen Global 发音词典 英语 英国 N/A N/A N/A N/A 195 000 N/A text 英语(英国)发音词典
Dataset 音频 英语(英国)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 150小时 Add Dataset to Quote UKE_ASR001 Appen Global 对话录音 英语 英国 低背景噪音 1 150 2 298 562 24 193 8 wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
英语(英国)对话式的电话录音语料库
Dataset 音频 英语(英国)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 50小时 Add Dataset to Quote UKE_ASR001B Appen Global 对话录音 英语 英国 低背景噪音 1 150 2 可根据要求提供 13 192 8 wav 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
英语(英国)对话式的电话录音语料库
Dataset 文本 英语(英国)词性词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 155,000个单词 Add Dataset to Quote eng_GBR_POS Appen Global 词性词典 英语 英国 N/A N/A N/A N/A 155 000 N/A text 英语(英国)词性词典
Dataset 文本 英语(阿拉伯联合酋长国)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 5,000个单词 Add Dataset to Quote eng_ARE_PHON Appen Global 发音词典 英语 阿拉伯联合酋长国 N/A N/A N/A N/A 5 000 N/A text 英语(阿拉伯联合酋长国)发音词典
Dataset 音频 英语(阿拉伯联合酋长国)有定稿的电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 移动电话和固定电话 Unit: 33小时 Add Dataset to Quote OrienTel English as spoken in the United Arab Emirates Nuance 有定稿的录音 英语 阿拉伯联合酋长国 低背景噪音 500 1 25 500 可根据要求提供 8 alaw 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制51个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令
英语(阿拉伯联合酋长国)有定稿的电话录音语料库
Dataset 文本 英语(香港)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 18,000个单词 Add Dataset to Quote eng_HKG_PHON Appen Global 发音词典 英语 香港 N/A N/A N/A N/A 18 000 N/A text 英语(香港)发音词典
Dataset 音频 荷兰语(比利时)有定稿的电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 麦克风 Unit: 80小时 Add Dataset to Quote Flemish SpeechDat(II) FDB-1000 (FIXED1FL) Nuance 有定稿的录音 荷兰语 比利时 低背景噪音 1 000 1 52 000 可根据要求提供 8 alaw 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制52个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令
荷兰语(比利时)有定稿的电话录音语料库
Dataset 音频 荷兰语(比利时)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 47小时 Add Dataset to Quote Speecon Dutch from Belgium Nuance 有定稿的录音 荷兰语 比利时 混合(办公室/娱乐场所/车内/公共场所) 600(550个成年语料提供者及50个儿童语料提供者) 4 170 000 可根据要求提供 16 alaw 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料
荷兰语(比利时)有定稿的麦克风录音语料库
Dataset 音频 荷兰语(荷兰和比利时)有定稿的车内录音语料库 Common Use Cases: ASR, 虚拟助手, 车载HMI及娱乐设备 Recording Device: 麦克风和移动电话 Unit: 27小时 Add Dataset to Quote Dutch and Flemish SpeechDat-Car Nuance 有定稿的录音 荷兰语 荷兰-比利时 混合(车内) 302 5 15 100 可根据要求提供 16和8 alaw 数据集已完全转录,并附有发音词典和验证报告
每个成年发音人录制125个语料,语料包括数字,自然数,字母串,个人、地点和企业名称(一些是自由发挥的),通用指令和特定指令,语音丰富的句子和单词及自由发挥的语料
荷兰语(荷兰和比利时)有定稿的车内录音语料库
Dataset 文本 荷兰语(荷兰)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 45,000个单词 Add Dataset to Quote nld_NLD_PHON Appen Global 发音词典 荷兰语 荷兰 N/A N/A N/A N/A 45 000 N/A text 荷兰语(荷兰)发音词典
Dataset 音频 荷兰语(荷兰)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 36小时 Add Dataset to Quote NLD_ASR001 Appen Global 对话录音 荷兰语 荷兰 低背景噪音 200 2 可根据要求提供 14 964 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
荷兰语(荷兰)对话式的电话录音语料库
Dataset 音频 荷兰语(荷兰)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 68小时 Add Dataset to Quote Speecon Dutch from the Netherlands Nuance 有定稿的录音 荷兰语 荷兰 混合(办公室/娱乐场所/车内/公共场所) 600(550个成年语料提供者及50个儿童语料提供者) 4 170 000 可根据要求提供 16 alaw 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料
荷兰语(荷兰)有定稿的麦克风录音语料库
Dataset 音频 葡萄牙语(欧洲)自由说语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 2.88小时 Add Dataset to Quote POR_EUR_ASR001_CN Appen China 自由说 葡萄牙语(欧洲) 葡萄牙 低背景噪音(家庭/办公室) 8   NA NA 16 wav 葡萄牙语(欧洲)自由说语音数据库
Dataset 文本 葡萄牙语(巴西)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 102,000个单词 Add Dataset to Quote por_BRA_PHON Appen Global 发音词典 葡萄牙语 巴西 N/A N/A N/A N/A 102 000 N/A text 葡萄牙语(巴西)发音词典
Dataset 音频 葡萄牙语(巴西)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 33小时 Add Dataset to Quote PTB_ASR002 Appen Global 对话录音 葡萄牙语 巴西 低背景噪音 200 2 可根据要求提供 11 287 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
葡萄牙语(巴西)对话式的电话录音语料库
Dataset 文本 葡萄牙语(巴西)词性词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 100,000个单词 Add Dataset to Quote por_BRA_POS Appen Global 词性词典 葡萄牙语 巴西 N/A N/A N/A N/A 100 000 N/A text 葡萄牙语(巴西)词性词典
Dataset 音频 葡萄牙语(巴西)麦克风录音数据库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 26小时 Add Dataset to Quote PTB_ASR001 Global Phone 有定稿的录音 葡萄牙语 巴西 低背景噪音(家庭/办公室) 102 1 10 417 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
葡萄牙语(巴西)麦克风录音数据库
Dataset 文本 葡萄牙语(葡萄牙)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 112,000个单词 Add Dataset to Quote por_PRT_PHON Appen Global 发音词典 葡萄牙语 葡萄牙 N/A N/A N/A N/A 112 000 N/A text 葡萄牙语(葡萄牙)发音词典
Dataset 音频 葡萄牙语(葡萄牙)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 36小时 Add Dataset to Quote PTP_ASR001 Appen Global 对话录音 葡萄牙语 葡萄牙 低背景噪音 200 2 可根据要求提供 16 339 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
葡萄牙语(葡萄牙)对话式的电话录音语料库
Dataset 文本 葡萄牙语(葡萄牙)词性词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 100,000个单词 Add Dataset to Quote por_PRT_POS Appen Global 词性词典 葡萄牙语 葡萄牙 N/A N/A N/A N/A 100 000 N/A text 葡萄牙语(葡萄牙)词性词典
Dataset 文本 蒙古语(蒙古)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 30,000个单词 Add Dataset to Quote mon_MNG_PHON Appen Global 发音词典 蒙古语 蒙古 N/A N/A N/A N/A 30 000 N/A text 蒙古语(蒙古)发音词典
Dataset 文本 西班牙文(哥伦比亚)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 15,000个单词 Add Dataset to Quote spa_COL_PHON Appen Global 发音词典 西班牙语 哥伦比亚 N/A N/A N/A N/A 15 000 N/A text 西班牙文(哥伦比亚)发音词典
Dataset 文本 西班牙文(委内瑞拉)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 15,000个单词 Add Dataset to Quote spa_VEN_PHON Appen Global 发音词典 西班牙语 委内瑞拉 N/A N/A N/A N/A 15 000 N/A text 西班牙文(委内瑞拉)发音词典
Dataset 文本 西班牙文(智利)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 15,000个单词 Add Dataset to Quote spa_CHL_PHON Appen Global 发音词典 西班牙语 智利 N/A N/A N/A N/A 15 000 N/A text 西班牙文(智利)发音词典
Dataset 文本 西班牙文(西班牙)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 100,000个单词 Add Dataset to Quote spa_ESP_PHON Appen Global 发音词典 西班牙语 西班牙 N/A N/A N/A N/A 100 000 N/A text 西班牙文(西班牙)发音词典
Dataset 音频 西班牙文(西班牙)有定稿的智能手机录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 移动电话 Unit: 540小时 Add Dataset to Quote ESP_ASR002_CN Appen China 有定稿的录音 西班牙语 西班牙 低背景噪音(家庭/办公室) 347 1 258 395 134 939 16 wav 数据集已完全转录 西班牙文(西班牙)有定稿的智能手机录音语料库
Dataset 音频 西班牙文(西班牙)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 39小时 Add Dataset to Quote ESP_ASR001 Appen Global 有定稿的录音 西班牙语 西班牙 混合 200 4 40 000 6 367 22 alaw 完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个发音人录制200个语料,语料包括100个命令和特定指令,100个语音丰富的句子
西班牙文(西班牙)有定稿的麦克风录音语料库
Dataset 音频 西班牙文(西班牙)有定稿的麦克风录音语料库 Common Use Cases: TTS Recording Device: 麦克风 Unit: 1 hour Add Dataset to Quote ESP_TTS001 Appen Global 有定稿的录音 西班牙语 西班牙 低背景噪音(录音棚) 1 1 1 787 3 614 22 alaw 数据集随附一个发音词典,其中包含该数据集中所说的所有单词
每个演讲者提供1787条语料,包括语音丰富的句子
西班牙文(西班牙)有定稿的麦克风录音语料库
Dataset 音频 西班牙文(西班牙)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 46小时 Add Dataset to Quote Speecon Spanish Database Nuance 有定稿的录音 西班牙语 西班牙 混合(办公室/娱乐场所/车内/公共场所) 600(550个成年语料提供者及50个儿童语料提供者) 4 170 000 可根据要求提供 16 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料
西班牙文(西班牙)有定稿的麦克风录音语料库
Dataset 音频 西班牙语自由说语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 2小时 Add Dataset to Quote ESP_ASR002_CN Appen China 自由说 西班牙语 西班牙 低背景噪音(家庭/办公室) N/A   NA NA 16 wav 西班牙语自由说语音数据库
Dataset 音频 西班牙语(拉丁美洲-智利和哥伦比亚)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 22小时 Add Dataset to Quote ESL_ASR002 Appen Global 对话录音 西班牙语 智利-哥伦比亚 混合 84 2 可根据要求提供 可根据要求提供 8 wav 数据集已完全转录并加了时间戳
银行和电信领域的呼叫中心风格的对话(由64个客户和14个代理商提供的),主要使用移动电话
西班牙语(拉丁美洲-智利和哥伦比亚)对话式的电话录音语料库
Dataset 音频 西班牙语(拉丁美洲)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 17小时 Add Dataset to Quote ESL_ASR001 Global Phone 有定稿的录音 西班牙语 哥斯达黎加 低背景噪音(家庭/办公室) 100 1 6 898 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
西班牙语(拉丁美洲)有定稿的麦克风录音语料库
Dataset 文本 西班牙语(秘鲁)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 15,000个单词 Add Dataset to Quote spa_PER_PHON Appen Global 发音词典 西班牙语 秘鲁 N/A N/A N/A N/A 15 000 N/A text 西班牙语(秘鲁)发音词典
Dataset 文本 西班牙语(美国)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 90,000个单词 Add Dataset to Quote spa_USA_PHON Appen Global 发音词典 西班牙语 美国 N/A N/A N/A N/A 90 000 N/A text 西班牙语(美国)发音词典
Dataset 文本 西班牙语(阿根廷)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 15,000个单词 Add Dataset to Quote spa_ARG_PHON Appen Global 发音词典 西班牙语 阿根廷 N/A N/A N/A N/A 15 000 N/A text 西班牙语(阿根廷)发音词典
Dataset 音频 豪萨语有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 20小时 Add Dataset to Quote HAU_ASR001 Global Phone 有定稿的录音 豪萨语 多国 低背景噪音(家庭/办公室) 103 1 7 895 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
豪萨语有定稿的麦克风录音语料库
Dataset 文本 豪萨(尼日利亚)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 11,000个单词 Add Dataset to Quote hau_NGA_PHON Appen Global 发音词典 豪萨语 奈及利亚 N/A N/A N/A N/A 11 000 N/A text 豪萨(尼日利亚)发音词典
Dataset 音频 豪萨(尼日利亚)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话 Unit: 33小时 Add Dataset to Quote HAU_ASR002 Appen Global 对话录音 豪萨语 奈及利亚 低背景噪音 200 2 可根据要求提供 7 949 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一
豪萨(尼日利亚)对话式的电话录音语料库
Dataset 音频 越南语自由说语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 2.61小时 Add Dataset to Quote VIE_ASR001_CN Appen China 自由说 越南语 越南 低背景噪音(家庭/办公室) 7   NA NA 16 wav 越南语自由说语音数据库
Dataset 文本 越南(Vietnam)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 8,000个单词 Add Dataset to Quote vie_VNM_PHON Appen Global 发音词典 越南语 越南 N/A N/A N/A N/A 8 000 N/A text 越南(Vietnam)发音词典
Dataset 音频 越南(Vietnam)麦克风录音数据库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 47小时 Add Dataset to Quote VIE_ASR001 Global Phone 有定稿的录音 越南语 越南 低背景噪音(家庭/办公室) 129 1 18 842 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
越南(Vietnam)麦克风录音数据库
Dataset 视频 身体移动视频库 Common Use Cases: 健身应用, 行为识别, 手势识别 Recording Device: 移动电话 Unit: 2,000 个视频 Add Dataset to Quote VED_HUMAN_BODY_CN Appen China 人体 N/A 中国 不同背景及光线 1000 NA NA NA NA mp4 每个视频片段长约10至20秒 身体移动视频库
Dataset 文本 达里语(阿富汗)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 30,000个单词 Add Dataset to Quote prs_AFG_PHON Appen Global 发音词典 达里语 阿富汗 N/A N/A N/A N/A 30 000 N/A text 达里语(阿富汗)发音词典
Dataset 音频 达里语(阿富汗)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 40小时 Add Dataset to Quote DAR_ASR001 Appen Global 对话录音 达里语 阿富汗 低背景噪音 500 2 可根据要求提供 11 168 8 alaw 数据集已完全转录并加上时间戳
数据集主要是语音,不包括音乐或广告
达里语(阿富汗)对话式的电话录音语料库
Dataset 音频 达里语(阿富汗)广播录音数据库 Common Use Cases: ASR, 自动字幕, 关键字检索 Recording Device: 麦克风 Unit: 51小时 Add Dataset to Quote DAR_BRC001 Appen Global 广播录音 达里语 阿富汗 低背景噪音(录音棚) N/A 1 可根据要求提供 可根据要求提供 N/A wav 数据集已完全转录并加上时间戳
数据集主要是语音,不包括音乐或广告
数据类型包括:脱口秀,访谈,新闻广播(不包括主持人阅读的新闻)
达里语(阿富汗)广播录音数据库
Dataset 音频 长沙语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 2.18小时 Add Dataset to Quote CHANGSHA_ASR001_CN Appen China 语料朗读 长沙 中国 低背景噪音(家庭/办公室) 10   NA NA 16 wav 长沙语音数据库
Dataset 文本 阿姆哈拉语(埃塞俄比亚)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 45,000个单词 Add Dataset to Quote amh_ETH_PHON Appen Global 发音词典 阿姆哈拉语 埃塞俄比亚 N/A N/A N/A N/A 45 000 N/A text 阿姆哈拉语(埃塞俄比亚)发音词典
Dataset 文本 阿尔巴尼亚语(阿尔巴尼亚)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 12,000个单词 Add Dataset to Quote sqi_ALB_PHON Appen Global 发音词典 阿尔巴尼亚语 阿尔巴尼亚 N/A N/A N/A N/A 12 000 N/A text 阿尔巴尼亚语(阿尔巴尼亚)发音词典
Dataset 文本 阿拉伯语NER语料库 Common Use Cases: NER, 内容分类, 搜索引擎 Recording Device: N/A Unit: 20,774个句子 Add Dataset to Quote ARB_NER001 Appen Global NER 阿拉伯语 N/A N/A N/A N/A 20 774 可根据要求提供 N/A text 阿拉伯语NER语料库
Dataset 文本 阿拉伯语发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 40,000个单词 Add Dataset to Quote arb_N/A_PHON Appen Global 发音词典 阿拉伯语 N/A N/A N/A N/A N/A 40 000 N/A text 阿拉伯语发音词典
Dataset 文本 阿拉伯语(伊拉克)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 15,000个单词 Add Dataset to Quote ara_IRQ_PHON Appen Global 发音词典 阿拉伯语 伊拉克 N/A N/A N/A N/A 15 000 N/A text 人名 阿拉伯语(伊拉克)发音词典
Dataset 文本 阿拉伯语(伊拉克)词性词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 13,000个单词 Add Dataset to Quote ara_IRQ_POS Appen Global 词性词典 阿拉伯语 伊拉克 N/A N/A N/A N/A 13 000 N/A text 阿拉伯语(伊拉克)词性词典
Dataset 文本 阿拉伯语(利比亚)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 48,000个单词 Add Dataset to Quote ara_LBY_PHON Appen Global 发音词典 阿拉伯语 利比亚 N/A N/A N/A N/A 48 000 N/A text 阿拉伯语(利比亚)发音词典
Dataset 文本 阿拉伯语(埃及)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 40,000个单词 Add Dataset to Quote ara_EGY_PHON Appen Global 发音词典 阿拉伯语 埃及 N/A N/A N/A N/A 40 000 N/A text 阿拉伯语(埃及)发音词典
Dataset 音频 阿拉伯语(埃及)有定稿的智能手机录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 移动电话 Unit: 352小时 Add Dataset to Quote ARE_ASR001_CN Appen China 有定稿的录音 阿拉伯语 埃及 低背景噪音(家庭/办公室) 627 1 128 908 207 576 16 wav 数据集已完全转录 阿拉伯语(埃及)有定稿的智能手机录音语料库
Dataset 文本 阿拉伯语(摩洛哥)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 60,000个单词 Add Dataset to Quote ara_MAR_PHON Appen Global 发音词典 阿拉伯语 摩洛哥 N/A N/A N/A N/A 60 000 N/A text 阿拉伯语(摩洛哥)发音词典
Dataset 文本 阿拉伯语(摩洛哥)对话式的电话录音翻译 Common Use Cases: MT, 聊天机器人, 对话式AI Recording Device: N/A Unit: 80,544 个发音 Add Dataset to Quote ARY_MT001 Appen Global 对话翻译 阿拉伯语 摩洛哥 N/A 180 N/A 80 430 23 844 N/A text 相应的音频,转录文本,完全可逆的罗马化的转录文本及发音词典见数据集ARY_ASR001和ARY_ASRMT001 阿拉伯语(摩洛哥)对话式的电话录音翻译
Dataset 音频 阿拉伯语(摩洛哥)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 33小时 Add Dataset to Quote ARY_ASR001 Appen Global 对话录音 阿拉伯语 摩洛哥 低背景噪音 180 2 80 544 23 836 8 alaw 每个发音人参与了1至4个对话,每个发音人由一个记录在人口统计文件中的唯一的4位数的演讲者ID来识别
此转录文件有原始版本和完全可逆的罗马化版本,并附带发音词典
产品转录的英文翻译见数据集ARY_MT001和ARY_ASRMT001
阿拉伯语(摩洛哥)对话式的电话录音语料库
Dataset 音频 阿拉伯语(沙特阿拉伯)有定稿的智能手机录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 移动电话 Unit: 322小时 Add Dataset to Quote ARS_ASR001_CN Appen China 有定稿的录音 阿拉伯语 沙特阿拉伯 低背景噪音(家庭/办公室) 227 1 104 574 156 282 16 wav 数据集已完全转录 阿拉伯语(沙特阿拉伯)有定稿的智能手机录音语料库
Dataset 音频 阿拉伯语(现代标准阿拉伯语)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 12小时 Add Dataset to Quote MSA_ASR001 Global Phone 有定稿的录音 阿拉伯语 突尼斯 低背景噪音(家庭/办公室) 78 1 4 908 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
阿拉伯语(现代标准阿拉伯语)有定稿的麦克风录音语料库
Dataset 文本 阿拉伯语(苏丹)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 17,000个单词 Add Dataset to Quote ara_SDN_PHON Appen Global 发音词典 阿拉伯语 苏丹 N/A N/A N/A N/A 17 000 N/A text 阿拉伯语(苏丹)发音词典
Dataset 音频 阿拉伯语(阿尔及利亚东部)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 29小时 Add Dataset to Quote EAR_ASR001 Appen Global 对话录音 阿拉伯语 阿尔及利亚 低背景噪音(家庭/办公室) 496 2 可根据要求提供 11 327 8 alaw 数据集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
在大多数通话中,对话双方(呼入者和呼出者)的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话内容被收集并转录了
阿拉伯语(阿尔及利亚东部)对话式的电话录音语料库
Dataset 文本 阿拉伯语(阿尔及利亚)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 11,000个单词 Add Dataset to Quote ara_DZA_PHON Appen Global 发音词典 阿拉伯语 阿尔及利亚 N/A N/A N/A N/A 11 000 N/A text 阿拉伯语(阿尔及利亚)发音词典
Dataset 音频 阿拉伯语(阿拉伯联合酋长国/沙特阿拉伯)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 86小时 Add Dataset to Quote CGA_ASR001 Appen Global 有定稿的录音 阿拉伯语 阿拉伯联合酋长国-沙特阿拉伯 低背景噪音(家庭/办公室) 150 4 42 000 19 245 16 alaw 语音文件内容已完全转录,精确到单词
所有录音均使用了衍生于SpeechDATmodel的方法进行标记
所有转录文件已被加注元音标识
每个发音人录制280个语料,语料包括15个人的名字和姓氏(共计30个),10个分开朗读的数字(0-10),随机生成的数字序列(每个序列包含8个数字),200个语音平衡的句子,30个语音平衡单词串(每个单词串包含10个单词)
阿拉伯语(阿拉伯联合酋长国/沙特阿拉伯)有定稿的麦克风录音语料库
Dataset 文本 阿拉伯语(阿拉伯联合酋长国)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 75,000个单词 Add Dataset to Quote ara_ARE_PHON Appen Global 发音词典 阿拉伯语 阿拉伯联合酋长国 N/A N/A N/A N/A 75 000 N/A text 阿拉伯语(阿拉伯联合酋长国)发音词典
Dataset 音频 阿拉伯语(阿拉伯联合酋长国)有定稿的智能手机录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 移动电话 Unit: 170小时 Add Dataset to Quote ARU_ASR001_CN Appen China 有定稿的录音 阿拉伯语 阿拉伯联合酋长国 低背景噪音(家庭/办公室) 133 1 42 352 85 775 16 wav 数据集已完全转录 阿拉伯语(阿拉伯联合酋长国)有定稿的智能手机录音语料库
Dataset 音频 阿拉伯语(阿拉伯联合酋长国)有定稿的电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 移动电话和固定电话 Unit: 48小时 Add Dataset to Quote OrienTel United Arab Emirates MCA (Modern Colloquial Arabic) Nuance 有定稿的录音 阿拉伯语 阿拉伯联合酋长国 低背景噪音 880 1 43 000 可根据要求提供 8 alaw 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制49个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令
阿拉伯语(阿拉伯联合酋长国)有定稿的电话录音语料库
Dataset 音频 阿拉伯语(阿拉伯联合酋长国)有定稿的电话录音语料库 Common Use Cases: ASR, 呼叫中心, 虚拟助手 Recording Device: 移动电话和固定电话 Unit: 31小时 Add Dataset to Quote OrienTel United Arab Emirates MSA (Modern Standard Arabic) Nuance 有定稿的录音 阿拉伯语 阿拉伯联合酋长国 低背景噪音 500 1 24 500 可根据要求提供 8 alaw 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制49个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令
阿拉伯语(阿拉伯联合酋长国)有定稿的电话录音语料库
Dataset 文本 阿萨姆语(印度)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 40,000个单词 Add Dataset to Quote asm_IND_PHON Appen Global 发音词典 阿萨姆语 印度 N/A N/A N/A N/A 40 000 N/A text 阿萨姆语(印度)发音词典
Dataset 文本 韩文(韩国)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 100,000个单词 Add Dataset to Quote kor_KOR_PHON Appen Global 发音词典 韩语 韩国 N/A N/A N/A N/A 100 000 N/A text 韩文(韩国)发音词典
Dataset 音频 韩文(韩国)有定稿的麦克风录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 麦克风 Unit: 20小时 Add Dataset to Quote KOR_ASR001 Global Phone 有定稿的录音 韩语 韩国 低背景噪音(家庭/办公室) 100 1 8 107 可根据要求提供 16 wav 数据集已完全转录,转录文件有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与Karlsruhe Institute of Technology (KIT)合作开发
韩文(韩国)有定稿的麦克风录音语料库
Dataset 文本 韩文(韩国)词性词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 100,000个单词 Add Dataset to Quote kor_KOR_POS Appen Global 词性词典 韩语 韩国 N/A N/A N/A N/A 100 000 N/A text 韩文(韩国)词性词典
Dataset 文本 韩语NER语料库 Common Use Cases: NER, 内容分类, 搜索引擎 Recording Device: N/A Unit: 25,830个句子 Add Dataset to Quote KOR_NER001 Appen Global NER 韩语 韩国 N/A N/A N/A 25 830 可根据要求提供 N/A text 韩语NER语料库
Dataset 音频 韩语自由说语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 3.35小时 Add Dataset to Quote KOR_ASR001_CN Appen China 自由说 韩语 韩国 低背景噪音(家庭/办公室) 4   NA NA 16 wav 韩语自由说语音数据库
Dataset 文本 马拉地语(印度)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 30,000个单词 Add Dataset to Quote mar_IND_PHON Appen Global 发音词典 马拉地语 印度 N/A N/A N/A N/A 30 000 N/A text 马拉地语(印度)发音词典
Dataset 音频 马拉地语(印度)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 15小时 Add Dataset to Quote MAR_ASR001 Appen Global 对话录音 马拉地语 印度 混合 180 2 可根据要求提供 11 908 8 alaw 数据集中大约29%的会话被转录并加盖了时间戳,可以提供完整的转录文本
数据集附带一个包含所有转录词的发音词典
马拉地语(印度)对话式的电话录音语料库
Dataset 音频 马拉地语(印度)对话式的电话录音语料库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 移动电话和固定电话 Unit: 52小时 Add Dataset to Quote MAR_ASR001A Appen Global 对话录音 马拉地语 印度 混合 1 000 2 可根据要求提供 11 908 8 alaw 数据集的部分会话被转录并加盖了时间戳,可以提供完整的转录文本
数据集附带一个包含所有转录词的发音词典
马拉地语(印度)对话式的电话录音语料库
Dataset 文本 马拉雅拉姆语(印度)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 4,000个单词 Add Dataset to Quote mal_IND_PHON Appen Global 发音词典 玛拉雅拉姆语 印度 N/A N/A N/A N/A 4 000 N/A text 马拉雅拉姆语(印度)发音词典
Dataset 文本 马来西亚(马来西亚)发音词典 Common Use Cases: ASR, TTS, 语言建模 Recording Device: N/A Unit: 10,000个单词 Add Dataset to Quote msa_MYS_PHON Appen Global 发音词典 马来语 马来西亚 N/A N/A N/A N/A 10 000 N/A text 马来西亚(马来西亚)发音词典
Dataset 音频 马来语自由说语音数据库 Common Use Cases: ASR, 对话式AI, 语音分析 Recording Device: 手机麦克风 Unit: 3.01小时 Add Dataset to Quote MAL_ASR001_CN Appen China 自由说 马来语 马来西亚 低背景噪音(家庭/办公室) 9   NA NA 16 wav 马来语自由说语音数据库
Dataset 音频 高棉语(柬埔寨)有定稿的智能手机录音语料库 Common Use Cases: ASR, 虚拟助手, 聊天机器人 Recording Device: 移动电话 Unit: 90小时 Add Dataset to Quote KHM_ASR001_CN Appen China 有定稿的录音 高棉语 柬埔寨 低背景噪音(家庭/办公室) 94 1 24 618 52 157 16 wav 数据集已完全转录 高棉语(柬埔寨)有定稿的智能手机录音语料库
Dataset 图像 黑人(东非)脸部照片库 Common Use Cases: 面部识别 Recording Device: 照相机 Unit: 13,500张图片 Add Dataset to Quote IMG_FACE_KEN_CN Appen China 人脸 N/A 肯尼亚 不同背景及光线 100 NA NA NA NA jpg 黑人(东非)脸部照片库