
数据产品目录
澳鹏提供种类丰富的成品数据库,我们的数据产品目录包括250多个可授权的数据集,涵盖80多种语言及方言,适用于各种常见的AI应用场景,例如:TTS、ASR等(参考下面目录表的筛选功能查看更多应用场景)。我们也在不断更新数据库中,2020年将推出30多个全新数据集,联系我们为您一同构建适用于您的项目的数据产品。

快速部署
直接获取数据库产品快速为您部署AI与机器学习项目

低成本高效益
直接获取经授权的成品数据库比您定制数据采集服务更具成本效益。

专家团队
您将拥有一支在数据采集领域耕耘20多年的专家团队支持

支持所有数据类型
图像,视频,语音,音频,文本

大规模
提供大量、高品质的数据高效地训练您的机器模型

高质量
提高您的机器模型质量并减少数据偏见
You have 0 Pre-Labeled Datasets Added to Quote
Request Quote
Browse all Pre-Labeled Datasets
Dataset 音频 | Sorani(库尔德语)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 5小时 | Add Dataset to Quote | SOR_ASR001 | Appen Global | 对话录音 | 库尔德语 | 伊朗 | 低背景噪音 | 170 | 2 | 可根据要求提供 | 7 924 | 8 | alaw或wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 对于很大比例的电话录音,只有一半的对话被收集和转录 |
Sorani(库尔德语)对话式的电话录音语料库 | |
Dataset 音频 | 上海方言(中国)多人对话式录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话 | Unit: 4.5 小时 | Add Dataset to Quote | SHANGHAI_ASR002_CN | Appen China | 对话录音 | 上海方言 | 中国 | 低背景噪音(家庭/办公室) | 14 | 1 | NA | NA | 8 | wav | 覆盖地区: 上海黄浦区、徐汇区、长宁区、静安区、普陀区、虹口区、杨浦区、浦东新区八区。 注:数据不包含上海郊区口音数据以及未成年人录制数据。 单人发音时长约40分钟,单个语音对话20~30分钟之间 内容为2~5人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。 数据库只是语音库,不含有转写文字 | 上海方言(中国)多人对话式录音语料库 | |
Dataset 音频 | 上海方言(中国)多人对话式录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 录音笔/麦克风 | Unit: 21小时 | Add Dataset to Quote | SHANGHAI_ASR001_CN | Appen China | 对话录音 | 上海方言 | 中国 | 低背景噪音(家庭/办公室) | 51 | 1 | NA | NA | 16 | wav | 覆盖地区: 上海黄浦区、徐汇区、长宁区、静安区、普陀区、虹口区、杨浦区、浦东新区八区。 注:数据不包含上海郊区口音数据以及未成年人录制数据。 单人发音时长约40分钟,单个语音对话20~30分钟之间 内容为2~5人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。 数据库只是语音库,不含有转写文字 | 上海方言(中国)多人对话式录音语料库 | |
Dataset 音频 | 上海语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 4.1小时 | Add Dataset to Quote | SHANGHAI_ASR003_CN | Appen China | 语料朗读 | 上海 | 中国 | 低背景噪音(家庭/办公室) | 8 | NA | NA | 16 | wav | 上海语音数据库 | |||
Dataset 音频 | 东北方言(中国)多人对话式录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 录音笔/麦克风 | Unit: 84.6小时 | Add Dataset to Quote | DONGBEI_ASR001_CN | Appen China | 对话录音 | 东北方言 | 中国 | 低背景噪音(家庭/办公室) | 268 | 1 | NA | NA | 16 | wav | 覆盖地区: 沈阳和平区、沈河区、皇姑区、大东区、铁西区、绿园区,朝阳区,宽城区,二道区,南关区、道里区、南岗区、道外区、平房区、松北区、香坊区、呼兰区、阿城区、双城区十九个区 注:数据不包含东北郊区口音数据以及未成年人录制数据。 单人发音时长约40分钟,单个语音对话20~30分钟之间 内容为2~5人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。 数据库只是语音库,不含有转写文字 | 东北方言(中国)多人对话式录音语料库 | |
Dataset 音频 | 东北方言(中国)多人对话式录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话 | Unit: 75.2小时 | Add Dataset to Quote | DONGBEI_ASR002_CN | Appen China | 对话录音 | 东北方言 | 中国 | 低背景噪音(家庭/办公室) | 185 | 1 | NA | NA | 8 | wav | 覆盖地区: 沈阳和平区、沈河区、皇姑区、大东区、铁西区、绿园区,朝阳区,宽城区,二道区,南关区、道里区、南岗区、道外区、平房区、松北区、香坊区、呼兰区、阿城区、双城区十九个区 注:数据不包含东北郊区口音数据以及未成年人录制数据。 单人发音时长约40分钟,单个语音对话20~30分钟之间 内容为2~5人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。 数据库只是语音库,不含有转写文字 | 东北方言(中国)多人对话式录音语料库 | |
Dataset 音频 | 东北语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 2.72小时 | Add Dataset to Quote | DONGBEI_ASR003_CN | Appen China | 语料朗读 | 东北 | 中国 | 低背景噪音(家庭/办公室) | 8 | NA | NA | 16 | wav | 东北语音数据库 | |||
Dataset 文本 | 丹麦(丹麦)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 107,000个单词 | Add Dataset to Quote | dan_DNK_PHON | Appen Global | 发音词典 | 丹麦语 | 丹麦 | N/A | N/A | N/A | N/A | 107 000 | N/A | text | 丹麦(丹麦)发音词典 | ||
Dataset 音频 | 丹麦(丹麦)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 53小时 | Add Dataset to Quote | Speecon Danish | Nuance | 有定稿的录音 | 丹麦语 | 丹麦 | 混合(办公室/娱乐场所/车内/公共场所) | 600(550个成年语料提供者及50个儿童语料提供者) | 4 | 170 000 | 可根据要求提供 | 16 | alaw | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料 |
丹麦(丹麦)有定稿的麦克风录音语料库 | |
Dataset 文本 | 丹麦(丹麦)词性词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 100,000个单词 | Add Dataset to Quote | dan_DNK_POS | Appen Global | 词性词典 | 丹麦语 | 丹麦 | N/A | N/A | N/A | N/A | 100 000 | N/A | text | 丹麦(丹麦)词性词典 | ||
Dataset 文本 | 乌克兰语(乌克兰)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 5,000个单词 | Add Dataset to Quote | ukr_UKR_PHON | Appen Global | 发音词典 | 乌克兰语 | 乌克兰 | N/A | N/A | N/A | N/A | 5 000 | N/A | text | 乌克兰语(乌克兰)发音词典 | ||
Dataset 文本 | 乌尔都语NER语料库 | Common Use Cases: NER, 内容分类, 搜索引擎 | Recording Device: N/A | Unit: 20,634个句子 | Add Dataset to Quote | URD_NER001 | Appen Global | NER | 乌尔都语 | 巴基斯坦 | N/A | N/A | N/A | 20 634 | 可根据要求提供 | N/A | text | 乌尔都语NER语料库 | ||
Dataset 音频 | 乌尔都语(印度/巴基斯坦)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 47小时 | Add Dataset to Quote | URD_ASR001 | Appen Global | 对话录音 | 乌尔都语 | 印度-巴基斯坦 | 混合 | 1 000 | 2 | 可根据要求提供 | 10 871 | 8 | wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 |
乌尔都语(印度/巴基斯坦)对话式的电话录音语料库 | |
Dataset 文本 | 乌尔都语(巴基斯坦)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 40,000个单词 | Add Dataset to Quote | urd_PAK_PHON | Appen Global | 发音词典 | 乌尔都语 | 巴基斯坦 | N/A | N/A | N/A | N/A | 40 000 | N/A | text | 乌尔都语(巴基斯坦)发音词典 | ||
Dataset 文本 | 乌尔都语(巴基斯坦)词性词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 12,000个单词 | Add Dataset to Quote | urd_PAK_POS | Appen Global | 词性词典 | 乌尔都语 | 巴基斯坦 | N/A | N/A | N/A | N/A | 12 000 | N/A | text | 乌尔都语(巴基斯坦)词性词典 | ||
Dataset 音频 | 他加禄语语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 电话录音 | Unit: 68.25小时 | Add Dataset to Quote | Tagalo_ASR001_CN | Appen China | 语料朗读 | 他加禄语 | 菲律宾 | 低背景噪音(家庭/办公室) | 84 | 1 | NA | NA | 16 | ulaw,alaw | 覆盖地区:菲律宾 单人录制大约4800s(500个句子),每个句子在3到10秒之间。内容为单人朗读所给语料。以电话录音实现,要求设备的多样化:手机、扬声器、固定电话、耳机。 | 他加禄语语音数据库 | |
Dataset 文本 | 伊博语(尼日利亚)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 30,000个单词 | Add Dataset to Quote | ibo_NGA_PHON | Appen Global | 发音词典 | 伊博语 | 奈及利亚 | N/A | N/A | N/A | N/A | 30 000 | N/A | text | 伊博语(尼日利亚)发音词典 | ||
Dataset 文本 | 伊朗波斯语(伊朗)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 80,000个单词 | Add Dataset to Quote | pes_IRN_PHON | Appen Global | 发音词典 | 波斯语 | 伊朗 | N/A | N/A | N/A | N/A | 80 000 | N/A | text | 伊朗波斯语(伊朗)发音词典 | ||
Dataset 文本 | 伊朗波斯语(伊朗)词性词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 1,400,000个单词 | Add Dataset to Quote | pes_IRN_POS | Appen Global | 词性词典 | 波斯语 | 伊朗 | N/A | N/A | N/A | N/A | 1 400 000 | N/A | text | 伊朗波斯语(伊朗)词性词典 | ||
Dataset 文本 | 俄罗斯(Russia)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 115,000个单词 | Add Dataset to Quote | rus_RUS_PHON | Appen Global | 发音词典 | 俄语 | 俄国 | N/A | N/A | N/A | N/A | 115 000 | N/A | text | 俄罗斯(Russia)发音词典 | ||
Dataset 音频 | 俄罗斯(Russia)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 37小时 | Add Dataset to Quote | RUS_ASR001 | Appen Global | 对话录音 | 俄语 | 俄国 | 低背景噪音 | 200 | 2 | 可根据要求提供 | 28 284 | 8 | alaw或wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一 |
俄罗斯(Russia)对话式的电话录音语料库 | |
Dataset 音频 | 俄罗斯(Russia)有定稿的电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 仅固定电话 | Unit: 180小时 | Add Dataset to Quote | Russian SpeechDat(E) Database | Nuance | 有定稿的录音 | 俄语 | 俄国 | 低背景噪音 | 2 500 | 1 | 112 000 | 可根据要求提供 | 8 | alaw | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个发音人录制45个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 |
俄罗斯(Russia)有定稿的电话录音语料库 | |
Dataset 音频 | 俄罗斯(Russia)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 31小时 | Add Dataset to Quote | RUS_ASR002 | Global Phone | 有定稿的录音 | 俄语 | 俄国 | 低背景噪音(家庭/办公室) | 115 | 1 | 12 205 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 |
俄罗斯(Russia)有定稿的麦克风录音语料库 | |
Dataset 音频 | 俄罗斯(Russia)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 46小时 | Add Dataset to Quote | Speecon Russian Database | Nuance | 有定稿的录音 | 俄语 | 俄国 | 混合(办公室/娱乐场所/车内/公共场所) | 600(550个成年语料提供者及50个儿童语料提供者) | 4 | 170 000 | 可根据要求提供 | 16 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料 |
俄罗斯(Russia)有定稿的麦克风录音语料库 | |
Dataset 文本 | 俄罗斯(Russia)词性词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 100,000个单词 | Add Dataset to Quote | rus_RUS_POS | Appen Global | 词性词典 | 俄语 | 俄国 | N/A | N/A | N/A | N/A | 100 000 | N/A | text | 俄罗斯(Russia)词性词典 | ||
Dataset 文本 | 俄语NER语料库 | Common Use Cases: NER, 内容分类, 搜索引擎 | Recording Device: N/A | Unit: 29,888个句子 | Add Dataset to Quote | RUS_NER001 | Appen Global | NER | 俄语 | 俄国 | N/A | N/A | N/A | 29 888 | 可根据要求提供 | N/A | text | 俄语NER语料库 | ||
Dataset 音频 | 俄语(俄国)自由说语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 30.89小时 | Add Dataset to Quote | RUS_ASR003_CN | Appen China | 自由说 | 俄语(俄国) | 俄国 | 低背景噪音(家庭/办公室) | 32 | 1 | NA | NA | 16 | wav | 俄语(俄国)自由说语音数据库 | ||
Dataset 文本 | 保加利亚语(保加利亚)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 55,000个单词 | Add Dataset to Quote | bul_BGR_PHON | Appen Global | 发音词典 | 保加利亚语 | 保加利亚 | N/A | N/A | N/A | N/A | 55 000 | N/A | text | 保加利亚语(保加利亚)发音词典 | ||
Dataset 音频 | 保加利亚语(保加利亚)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 38小时 | Add Dataset to Quote | BUL_ASR001 | Appen Global | 对话录音 | 保加利亚语 | 保加利亚 | 低背景噪音(家庭/办公室) | 217 | 2 | 可根据要求提供 | 22 342 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一 |
保加利亚语(保加利亚)对话式的电话录音语料库 | |
Dataset 音频 | 保加利亚语(保加利亚)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 22小时 | Add Dataset to Quote | BUL_ASR002 | Global Phone | 有定稿的录音 | 保加利亚语 | 保加利亚 | 低背景噪音(家庭/办公室) | 77 | 1 | 8 674 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 |
保加利亚语(保加利亚)有定稿的麦克风录音语料库 | |
Dataset 文本 | 克罗地亚语(克罗地亚)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 20,000个单词 | Add Dataset to Quote | hrv_HRV_PHON | Appen Global | 发音词典 | 克罗地亚语 | 克罗地亚 | N/A | N/A | N/A | N/A | 20 000 | N/A | text | 克罗地亚语(克罗地亚)发音词典 | ||
Dataset 音频 | 克罗地亚语(克罗地亚)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 39小时 | Add Dataset to Quote | CRO_ASR001 | Appen Global | 对话录音 | 克罗地亚语 | 克罗地亚 | 低背景噪音(家庭/办公室) | 200 | 2 | 可根据要求提供 | 23 919 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一 |
克罗地亚语(克罗地亚)对话式的电话录音语料库 | |
Dataset 音频 | 克罗地亚语(克罗地亚)有定稿的智能手机录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 移动电话 | Unit: 263小时 | Add Dataset to Quote | CRO_ASR003_CN | Appen China | 有定稿的录音 | 克罗地亚语 | 克罗地亚 | 低背景噪音(家庭/办公室) | 243 | 1 | 73 467 | 136 140 | 16 | wav | 数据集已完全转录 | 克罗地亚语(克罗地亚)有定稿的智能手机录音语料库 | |
Dataset 音频 | 克罗地亚语(克罗地亚)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 11小时 | Add Dataset to Quote | CRO_ASR002 | Global Phone | 有定稿的录音 | 克罗地亚语 | 克罗地亚 | 低背景噪音(家庭/办公室) | 94 | 1 | 4 499 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 |
克罗地亚语(克罗地亚)有定稿的麦克风录音语料库 | |
Dataset 音频 | 内蒙古方言(中国)双人对话式录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话 | Unit: 100小时 | Add Dataset to Quote | NMG_ASR001_CN | Appen China | 对话录音 | 内蒙古族语 | 中国 | 低背景噪音(家庭/办公室) | 200 | 1 | NA | NA | 16 | wav | 覆盖地区:通辽 呼和浩特 锡林郭勒盟。 单人发音时长约30分钟,内容为2人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。 数据库只是语音库,不含有转写文字 | 内蒙古方言(中国)双人对话式录音语料库 | |
Dataset 文本 | 加泰罗尼亚语(西班牙)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 10,000个单词 | Add Dataset to Quote | cat_ESP_PHON | Appen Global | 发音词典 | 加泰罗尼亚语 | 西班牙 | N/A | N/A | N/A | N/A | 10 000 | N/A | text | 加泰罗尼亚语(西班牙)发音词典 | ||
Dataset 文本 | 匈牙利语(匈牙利)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 500个单词 | Add Dataset to Quote | hun_HUN_PHON | Appen Global | 发音词典 | 匈牙利语 | 匈牙利 | N/A | N/A | N/A | N/A | 500 | N/A | text | 匈牙利语(匈牙利)发音词典 | ||
Dataset 音频 | 匈牙利语(匈牙利)有定稿的智能手机录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 移动电话 | Unit: 286小时 | Add Dataset to Quote | HUN_ASR001_CN | Appen China | 有定稿的录音 | 匈牙利语 | 匈牙利 | 低背景噪音(家庭/办公室) | 254 | 1 | 94 031 | 201 921 | 16 | wav | 数据集已完全转录 | 匈牙利语(匈牙利)有定稿的智能手机录音语料库 | |
Dataset 音频 | 匈牙利语(匈牙利)有定稿的电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 仅固定电话 | Unit: 65小时 | Add Dataset to Quote | Hungarian SpeechDat(E) | Nuance | 有定稿的录音 | 匈牙利语 | 匈牙利 | 低背景噪音 | 1 000 | 1 | 48 000 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个发音人录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 |
匈牙利语(匈牙利)有定稿的电话录音语料库 | |
Dataset 文本 | 卡纳达语(印度)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 35,000个单词 | Add Dataset to Quote | kan_IND_PHON | Appen Global | 发音词典 | 坎那达语 | 印度 | N/A | N/A | N/A | N/A | 35 000 | N/A | text | 卡纳达语(印度)发音词典 | ||
Dataset 音频 | 卡纳达语(印度)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 15小时 | Add Dataset to Quote | KAN_ASR001 | Appen Global | 对话录音 | 坎那达语 | 印度 | 混合 | 178 | 2 | 可根据要求提供 | 15 660 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 |
卡纳达语(印度)对话式的电话录音语料库 | |
Dataset 音频 | 卡纳达语(印度)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 57小时 | Add Dataset to Quote | KAN_ASR001A | Appen Global | 对话录音 | 坎那达语 | 印度 | 混合 | 1 000 | 2 | 可根据要求提供 | 15 660 | 8 | alaw | 数据集中大约25%的会话被转录并加盖了时间戳,可以提供完整的转录文本 数据库附带一个包含所有转录词的发音词典 |
卡纳达语(印度)对话式的电话录音语料库 | |
Dataset 文本 | 卢奥语(肯尼亚)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 20,000个单词 | Add Dataset to Quote | luo_KEN_PHON | Appen Global | 发音词典 | 卢奥语 | 肯尼亚 | N/A | N/A | N/A | N/A | 20 000 | N/A | text | 卢奥语(肯尼亚)发音词典 | ||
Dataset 音频 | 印地语自由说语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 2.65小时 | Add Dataset to Quote | HINDI_ASR001_CN | Appen China | 自由说 | 印地语 | 印度 | 低背景噪音(家庭/办公室) | 6 | NA | NA | 16 | wav | 印地语自由说语音数据库 | |||
Dataset 文本 | 印地语(印度)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 35,000个单词 | Add Dataset to Quote | hin_IND_PHON | Appen Global | 发音词典 | 印地语 | 印度 | N/A | N/A | N/A | N/A | 35 000 | N/A | text | 印地语(印度)发音词典 | ||
Dataset 音频 | 印地语(印度)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 32小时 | Add Dataset to Quote | HIN_ASR002 | Appen Global | 对话录音 | 印地语 | 印度 | 混合 | 996 | 2 | 可根据要求提供 | 12 266 | 8 | wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 在大多数的通话中,对话双方的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话被收集并转录了 |
印地语(印度)对话式的电话录音语料库 | |
Dataset 音频 | 印地语(印度)有定稿的电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 移动电话 | Unit: 224小时 | Add Dataset to Quote | HIN_ASR001 | Appen Global | 有定稿的录音 | 印地语 | 印度 | 低背景噪音 | 1 920 | 1 | 96 000 | 9 853 | 8 | alaw | 完全转录为SpeechDAT类型 数据集附带一个包含所有转录词的发音词典[SAMPA] 每个发音人录制50个语料,语料包括数字,自然数,个人、地点和企业名称,网址,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 |
印地语(印度)有定稿的电话录音语料库 | |
Dataset 文本 | 印尼文(印度尼西亚)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 95,000个单词 | Add Dataset to Quote | ind_IDN_PHON | Appen Global | 发音词典 | 印度尼西亚语 | 印度尼西亚 | N/A | N/A | N/A | N/A | 95 000 | N/A | text | 印尼文(印度尼西亚)发音词典 | ||
Dataset 文本 | 印尼文(印度尼西亚)词性词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 10,000个单词 | Add Dataset to Quote | ind_IDN_POS | Appen Global | 词性词典 | 印度尼西亚语 | 印度尼西亚 | N/A | N/A | N/A | N/A | 10 000 | N/A | text | 印尼文(印度尼西亚)词性词典 | ||
Dataset 音频 | 印尼语自由说语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 3.77小时 | Add Dataset to Quote | IND_ASR001_CN | Appen China | 自由说 | 印尼语 | 印尼 | 低背景噪音(家庭/办公室) | 7 | NA | NA | 16 | wav | 印尼语自由说语音数据库 | |||
Dataset 音频 | 印尼语(印度尼西亚)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 31小时 | Add Dataset to Quote | BAH_ASR001 | Appen Global | 对话录音 | 印度尼西亚语 | 印度尼西亚 | 低背景噪音 | 1 002 | 2 | 可根据要求提供 | 11 480 | 8 | wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 对于很大比例的电话录音,只有一半的对话被收集和转录 |
印尼语(印度尼西亚)对话式的电话录音语料库 | |
Dataset 音频 | 台湾自由说语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 3.12小时 | Add Dataset to Quote | TAIWAN_ASR001_CN | Appen China | 自由说 | 台湾 | 中国 | 低背景噪音(家庭/办公室) | 10 | NA | NA | 16 | wav | 台湾自由说语音数据库 | |||
Dataset 文本 | 吴语(中国)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 10,000个单词 | Add Dataset to Quote | wuu_CHN_PHON | Appen Global | 发音词典 | 吴语 | 中国 | N/A | N/A | N/A | N/A | 10 000 | N/A | text | 吴语(中国)发音词典 | ||
Dataset 文本 | 哈萨克语(哈萨克斯坦)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 30,000个单词 | Add Dataset to Quote | kaz_KAZ_PHON | Appen Global | 发音词典 | 哈萨克语 | 哈萨克斯坦 | N/A | N/A | N/A | N/A | 30 000 | N/A | text | 哈萨克语(哈萨克斯坦)发音词典 | ||
Dataset 音频 | 四川语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 3.86小时 | Add Dataset to Quote | SICHUAN_ASR001_CN | Appen China | 语料朗读 | 四川 | 中国 | 低背景噪音(家庭/办公室) | 8 | NA | NA | 16 | wav | 四川语音数据库 | |||
Dataset 文本 | 土耳其语(土耳其)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 255,000个单词 | Add Dataset to Quote | tur_TUR_PHON | Appen Global | 发音词典 | 土耳其语 | 土耳其 | N/A | N/A | N/A | N/A | 255 000 | N/A | text | 土耳其语(土耳其)发音词典 | ||
Dataset 音频 | 土耳其语(土耳其)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 41小时 | Add Dataset to Quote | TUR_ASR001 | Appen Global | 对话录音 | 土耳其语 | 土耳其 | 低背景噪音 | 200 | 2 | 可根据要求提供 | 32 386 | 8 | alaw或wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一 |
土耳其语(土耳其)对话式的电话录音语料库 | |
Dataset 音频 | 土耳其语(土耳其)有定稿的智能手机录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 移动电话 | Unit: 739小时 | Add Dataset to Quote | TUR_ASR003_CN | Appen China | 有定稿的录音 | 土耳其语 | 土耳其 | 低背景噪音(家庭/办公室) | 664 | 1 | 185 706 | 215 135 | 16 | wav | 数据集已完全转录 | 土耳其语(土耳其)有定稿的智能手机录音语料库 | |
Dataset 音频 | 土耳其语(土耳其)电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 移动电话和固定电话 | Unit: 118小时 | Add Dataset to Quote | OrienTel Turkish Database | Nuance | 有定稿的录音 | 土耳其语 | 土耳其 | 低背景噪音 | 1 700 | 1 | 76 500 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个发音人录制45个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 |
土耳其语(土耳其)电话录音语料库 | |
Dataset 文本 | 土耳其语(土耳其)词性词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 257,000个单词 | Add Dataset to Quote | tur_TUR_POS | Appen Global | 词性词典 | 土耳其语 | 土耳其 | N/A | N/A | N/A | N/A | 257 000 | N/A | text | 土耳其语(土耳其)词性词典 | ||
Dataset 音频 | 土耳其语(土耳其)麦克风录音数据库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 17小时 | Add Dataset to Quote | TUR_ASR002 | Global Phone | 有定稿的录音 | 土耳其语 | 土耳其 | 低背景噪音(家庭/办公室) | 100 | 1 | 6 950 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 |
土耳其语(土耳其)麦克风录音数据库 | |
Dataset 文本 | 塔加洛语(菲律宾)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 30,000个单词 | Add Dataset to Quote | tgl_PHL_PHON | Appen Global | 发音词典 | 塔加拉族语 | 菲律宾 | N/A | N/A | N/A | N/A | 30 000 | N/A | text | 塔加洛语(菲律宾)发音词典 | ||
Dataset 文本 | 塞尔维亚语(塞尔维亚)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 15,000个单词 | Add Dataset to Quote | srp_SRB_PHON | Appen Global | 发音词典 | 塞尔维亚语 | 塞尔维亚 | N/A | N/A | N/A | N/A | 15 000 | N/A | text | 塞尔维亚语(塞尔维亚)发音词典 | ||
Dataset 文本 | 塞海蒂语(孟加拉国-印度)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 22,000个单词 | Add Dataset to Quote | syl_BGD -IND_PHON | Appen Global | 发音词典 | 塞海蒂语 | 孟加拉国-印度 | N/A | N/A | N/A | N/A | 22 000 | N/A | text | 塞海蒂语(孟加拉国-印度)发音词典 | ||
Dataset 音频 | 外国人说中文语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话 | Unit: 200小时 | Add Dataset to Quote | FOREIGNER_ASR001_CN | Appen China | 有定稿的录音 | 中文(外国人) | 多国 | 低背景噪音(家庭/办公室) | 200 | NA | NA | 16 | wav | 数据库包含200小时的外国人说中文 人数:200人 覆盖国家: 美国(不含加州和伊利诺伊州),印度,菲律宾,日本,加拿大,泰国,澳大利亚,越南,俄罗斯,土耳其,埃及,印度尼西亚。 注:数据不包含韩国,巴西境外数据同时也不包含未成年人录制数据。 单人发音时长约1小时,单句时长3-10秒之间 内容为单人朗读形式 采集工具为手机麦克风 单声道 采样率 16KHZ 录音环境为 家庭/办公室。数据为脱敏数据,编号和录制人信息会打乱。 | 外国人说中文语音数据库 | ||
Dataset 图像 | 多姿态多光线人像图片数据库 | Common Use Cases: 图片标签识别训练 | Recording Device: 手机/照相机 | Unit: 680张 | Add Dataset to Quote | IMG_BODY_POSE_CN | Appen China | 物体图片 | N/A | 多国 | 多种光线 | NA | NA | NA | NA | NA | jpg | 共680张,多人室内67张,多人室外强光11张,多人室外弱光4张,单人室内550张,单人室外强光7张,单人室外弱光41张 | 多姿态多光线人像图片数据库 | |
Dataset 图像 | 多标签图片数据库 | Common Use Cases: 图片标签识别训练 | Recording Device: 手机/照相机 | Unit: 2196 张 | Add Dataset to Quote | IMG_TAG_CN | Appen China | 物体图片 | N/A | N/A | 多种光线 | NA | NA | NA | NA | NA | jpg | 共2196张多场景图片样例库,可做速成库。分类为:KTV :50张,百货商店 : 55张,办公室: 100张;博物馆:63张;电器 :55张;海洋 : 191张;汽车: 50张;手提包 :35张;夜景:54张;运动器材:54张;便利店 :34张;餐厅 :54张;车窗风景 :62张;宠物 : 82张;船 50张;动物园,70张;服装店:53张;海滩 :95张;机场 : 65张;健身房 :47张;景点 :77张;人群 :67张;沙漠 : 73张;沙滩 :68张;山区 :54张;商场 :55张;树 :85张;天空 : 102张;雪景 :71张;雪山 : 53张;夜景 :78张;游乐场 :94张。 | 多标签图片数据库 | |
Dataset 文本 | 奥里雅语(印度)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 15,000个单词 | Add Dataset to Quote | ori_IND_PHON | Appen Global | 发音词典 | 奥里雅语 | 印度 | N/A | N/A | N/A | N/A | 15 000 | N/A | text | 奥里雅语(印度)发音词典 | ||
Dataset 音频 | 婴幼儿啼哭语料库 | Common Use Cases: 婴儿监控器, 安全及其他消费者应用程序 | Recording Device: 移动电话 | Unit: 3小时 | Add Dataset to Quote | CRY_ASR001 | Appen China | 人声 | N/A | 中国 | 低背景噪音(家庭/办公室) | 100 | 1 | NA | NA | 16 | wav | 0到3岁婴儿的哭声,每个录音持续2分钟左右 | 婴幼儿啼哭语料库 | |
Dataset 文本 | 孟加拉语(印度)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 29,000个单词 | Add Dataset to Quote | ben_IND_PHON | Appen Global | 发音词典 | 孟加拉语 | 印度 | N/A | N/A | N/A | N/A | 29 000 | N/A | text | 孟加拉语(印度)发音词典 | ||
Dataset 音频 | 孟加拉语(孟加拉国)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 47小时 | Add Dataset to Quote | BEN_ASR001 | Appen Global | 对话录音 | 孟加拉语 | 孟加拉国 | 混合(车内/路边/家庭/办公室) | 1 000 | 2 | 可根据要求提供 | 17 922 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 |
孟加拉语(孟加拉国)对话式的电话录音语料库 | |
Dataset 文本 | 宿雾语(菲律宾)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 20,000个单词 | Add Dataset to Quote | ceb_PHL_PHON | Appen Global | 发音词典 | 宿雾语 | 菲律宾 | N/A | N/A | N/A | N/A | 20 000 | N/A | text | 宿雾语(菲律宾)发音词典 | ||
Dataset 文本 | 巴斯克(西班牙)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 10,000个单词 | Add Dataset to Quote | eus_ESP_PHON | Appen Global | 发音词典 | 巴斯克语 | 西班牙 | N/A | N/A | N/A | N/A | 10 000 | N/A | text | 巴斯克(西班牙)发音词典 | ||
Dataset 文本 | 希伯来语(以色列)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 31,000个单词 | Add Dataset to Quote | heb_ISR_PHON | Appen Global | 发音词典 | 希伯来语 | 以色列 | N/A | N/A | N/A | N/A | 31 000 | N/A | text | 希伯来语(以色列)发音词典 | ||
Dataset 音频 | 希伯来语(以色列)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 34小时 | Add Dataset to Quote | HEB_ASR001 | Appen Global | 对话录音 | 希伯来语 | 以色列 | 低背景噪音 | 200 | 2 | 可根据要求提供 | 19 250 | 8 | alaw或wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一 |
希伯来语(以色列)对话式的电话录音语料库 | |
Dataset 文本 | 希腊语(希腊)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 5,000个单词 | Add Dataset to Quote | ell_GRC_PHON | Appen Global | 发音词典 | 希腊语 | 希腊 | N/A | N/A | N/A | N/A | 5 000 | N/A | text | 希腊语(希腊)发音词典 | ||
Dataset 音频 | 希腊语(希腊)有定稿的智能手机录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 移动电话 | Unit: 191小时 | Add Dataset to Quote | GRE_ASR001_CN | Appen China | 有定稿的录音 | 希腊语 | 希腊 | 低背景噪音(家庭/办公室) | 287 | 1 | 54 113 | 68 271 | 16 | wav | 数据集已完全转录 | 希腊语(希腊)有定稿的智能手机录音语料库 | |
Dataset 文本 | 广东话(中国)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 37,000个单词 | Add Dataset to Quote | yue_CHN_PHON | Appen Global | 发音词典 | 广东话 (粤语) | 中国 | N/A | N/A | N/A | N/A | 37 000 | N/A | text | 简体 | 广东话(中国)发音词典 | |
Dataset 文本 | 广东话(中国)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 40,000个单词 | Add Dataset to Quote | yue_CHN_PHON | Appen Global | 发音词典 | 广东话 (粤语) | 中国 | N/A | N/A | N/A | N/A | 40 000 | N/A | text | 繁体 | 广东话(中国)发音词典 | |
Dataset 文本 | 广东话(中国)词性词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 10,000个单词 | Add Dataset to Quote | yue_HKG_POS | Appen Global | 词性词典 | 广东话 (粤语) | 中国 | N/A | N/A | N/A | N/A | 10 000 | N/A | text | 繁体 | 广东话(中国)词性词典 | |
Dataset 音频 | 广东语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 4.06小时 | Add Dataset to Quote | GUANGDONG_ASR001_CN | Appen China | 语料朗读 | 广东 | 中国 | 低背景噪音(家庭/办公室) | 8 | NA | NA | 16 | wav | 广东语音数据库 | |||
Dataset 文本 | 库尔曼吉(土耳其)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 60,000个单词 | Add Dataset to Quote | kur_TUR_PHON | Appen Global | 发音词典 | 库尔德语 | 土耳其 | N/A | N/A | N/A | N/A | 60 000 | N/A | text | 库尔曼吉(土耳其)发音词典 | ||
Dataset 音频 | 德语 (德国)自由说语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 20.19小时 | Add Dataset to Quote | DEU_ASR004_CN | Appen China | 自由说 | 德语 (德国) | 德国 | 低背景噪音(家庭/办公室) | 80 | 1 | NA | NA | 16 | wav | 德语 (德国)自由说语音数据库 | ||
Dataset 音频 | 德语(卢森堡)电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 仅固定电话 | Unit: 33小时 | Add Dataset to Quote | Luxembourgish German SpeechDat(II) FDB-500 (FIXED1LG) | Nuance | 有定稿的录音 | 德语 | 卢森堡 | 低背景噪音 | 500 | 1 | 26 500 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个发音人录制53个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 |
德语(卢森堡)电话录音语料库 | |
Dataset 音频 | 德语(土耳其)电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 移动电话和固定电话 | Unit: 31小时 | Add Dataset to Quote | OrienTel German Spoken by Turkish | Nuance | 有定稿的录音 | 德语 | 土耳其 | 低背景噪音 | 300 | 1 | 15 600 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个发音人录制52个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 |
德语(土耳其)电话录音语料库 | |
Dataset 文本 | 德语(德国)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 146,000个单词 | Add Dataset to Quote | deu_DEU_PHON | Appen Global | 发音词典 | 德语 | 德国 | N/A | N/A | N/A | N/A | 146 000 | N/A | text | 德语(德国)发音词典 | ||
Dataset 音频 | 德语(德国)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 16小时 | Add Dataset to Quote | DEU_ASR001 | Appen Global | 有定稿的录音 | 德语 | 德国 | 低背景噪音(录音棚) | 127 | 2 | 12 700 | 6 826 | 16 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 每个发音人录制100个语料,语料包括数字,自然数,人名,城市名,电话号码,通用指令和特定指令,语音丰富的句子和单词 |
德语(德国)有定稿的麦克风录音语料库 | |
Dataset 音频 | 德语(德国)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 25小时 | Add Dataset to Quote | DEU_ASR003 | Global Phone | 有定稿的录音 | 德语 | 德国 | 低背景噪音(家庭/办公室) | 77 | 1 | 10 085 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 |
德语(德国)有定稿的麦克风录音语料库 | |
Dataset 音频 | 德语(德国)电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 仅固定电话 | Unit: 31小时 | Add Dataset to Quote | German SpeechDat (II) FDB-1000 | Nuance | 有定稿的录音 | 德语 | 德国 | 低背景噪音(家庭/办公室) | 988 | 1 | 43 000 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个发音人录制44个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 |
德语(德国)电话录音语料库 | |
Dataset 音频 | 德语(德国)电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 仅固定电话 | Unit: 268小时 | Add Dataset to Quote | German SpeechDat(II) FDB-4000 | Nuance | 有定稿的录音 | 德语 | 德国 | 低背景噪音(家庭/办公室) | 4 000 | 1 | 160 000 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个发音人录制40个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 |
德语(德国)电话录音语料库 | |
Dataset 文本 | 德语(瑞士)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 15,000个单词 | Add Dataset to Quote | deu_CHE_PHON | Appen Global | 发音词典 | 德语 | 瑞士 | N/A | N/A | N/A | N/A | 15 000 | N/A | text | 德语(瑞士)发音词典 | ||
Dataset 音频 | 德语(瑞士)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 53小时 | Add Dataset to Quote | Speecon German (Switzerland) database | Nuance | 有定稿的录音 | 德语 | 瑞士 | 混合(办公室/娱乐场所/车内/公共场所) | 600(550个成年语料提供者及50个儿童语料提供者) | 4 | 170 000 | 可根据要求提供 | 16 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料 |
德语(瑞士)有定稿的麦克风录音语料库 | |
Dataset 文本 | 意大利文(意大利)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 197,000个单词 | Add Dataset to Quote | ita_ITA_PHON | Appen Global | 发音词典 | 意大利语 | 意大利 | N/A | N/A | N/A | N/A | 197 000 | N/A | text | 意大利文(意大利)发音词典 | ||
Dataset 音频 | 意大利文(意大利)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 36小时 | Add Dataset to Quote | ITA_ASR003 | Appen Global | 对话录音 | 意大利语 | 意大利 | 低背景噪音 | 200 | 2 | 可根据要求提供 | 18 974 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一 |
意大利文(意大利)对话式的电话录音语料库 | |
Dataset 音频 | 意大利文(意大利)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 44小时 | Add Dataset to Quote | ITA_ASR001 | Appen Global | 有定稿的录音 | 意大利语 | 意大利 | 混合 | 200 | 4 | 40 000 | 7 316 | 22 | alaw | 完全转录为SpeechDAT类型 数据集附带一个包含所有转录词的发音词典 每个发音人录制200个语料,语料包括100个命令和特定指令,100个语音丰富的句子 |
意大利文(意大利)有定稿的麦克风录音语料库 | |
Dataset 音频 | 意大利文(意大利)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 车载HMI及娱乐设备 | Recording Device: 麦克风 | Unit: 47小时 | Add Dataset to Quote | ITA_ASR002 | Appen Global | 有定稿的录音 | 意大利语 | 意大利 | 混合(车内) | 103 | 4 | 35 875 | 10 366 | 48 | alaw | 完全转录为SpeechDAT类型 数据集附带一个包含所有转录词的发音词典 每个发音人录制350个语料,语料包括数字,街道名称,通用指令和特定指令,语音丰富的句子和单词 每个发音人录制了1到2段样本,第一段在未熄火的停靠车辆中录制,第二段在以每小时60英里(100 公里 / 小时)的速度行驶的车辆中录制 |
意大利文(意大利)有定稿的麦克风录音语料库 | |
Dataset 音频 | 意大利文(意大利)有定稿的麦克风录音语料库 | Common Use Cases: TTS | Recording Device: 麦克风 | Unit: 3小时 | Add Dataset to Quote | ITA_TTS001 | Appen Global | 有定稿的录音 | 意大利语 | 意大利 | 低背景噪音(录音棚) | 1 | 1 | 3 300 | 可根据要求提供 | 22 | alaw | 数据集随附一个发音词典,其中包含该数据集中所说的所有单词 每个发音人录制3300条语料,包括语音丰富的句子 |
意大利文(意大利)有定稿的麦克风录音语料库 | |
Dataset 音频 | 意大利文(意大利)电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 仅固定电话 | Unit: 38小时 | Add Dataset to Quote | Italian Fixed Network Speech SpeechDat(M) Corpus | Nuance | 有定稿的录音 | 意大利语 | 意大利 | 低背景噪音(家庭/办公室) | 1 000 | 1 | 39 000 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个发音人录制39个语料,语料包含连续和间隔的数字,自然数,金额,拼写单词,时间和日期短语,是/否问题,常见的应用词汇,在短语中的应用词汇以及语音丰富的句子 |
意大利文(意大利)电话录音语料库 | |
Dataset 音频 | 意大利文(意大利)电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 仅固定电话 | Unit: 228小时 | Add Dataset to Quote | Italian SpeechDat(II) FDB-3000 | Nuance | 有定稿的录音 | 意大利语 | 意大利 | 低背景噪音(家庭/办公室) | 3 040 | 1 | 134 000 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个发音人录制44个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 |
意大利文(意大利)电话录音语料库 | |
Dataset 音频 | 意大利文(意大利)电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 移动电话 | Unit: 103小时 | Add Dataset to Quote | Italian SpeechDat(II) MDB-250 | Nuance | 有定稿的录音 | 意大利语 | 意大利 | 低背景噪音(家庭/办公室) | 375 | 1 | 19 000 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个发音人录制51个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 |
意大利文(意大利)电话录音语料库 | |
Dataset 音频 | 意大利文(意大利)电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 移动电话 | Unit: 13小时 | Add Dataset to Quote | SpeechDat(M) Italian Mobile Network Speech Database | Nuance | 有定稿的录音 | 意大利语 | 意大利 | 低背景噪音(家庭/办公室) | 342 | 1 | 13 500 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个发音人录制40个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 |
意大利文(意大利)电话录音语料库 | |
Dataset 文本 | 意大利文(意大利)词性词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 147,000个单词 | Add Dataset to Quote | ita_ITA_POS | Appen Global | 词性词典 | 意大利语 | 意大利 | N/A | N/A | N/A | N/A | 147 000 | N/A | text | 意大利文(意大利)词性词典 | ||
Dataset 音频 | 意大利自由说语语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 3.8小时 | Add Dataset to Quote | ITA_ASR001_CN | Appen China | 自由说 | 意大利语 | 意大利 | 低背景噪音(家庭/办公室) | 6 | NA | NA | 16 | wav | 意大利自由说语语音数据库 | |||
Dataset 文本 | 托皮辛(巴布亚新几内亚)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 10,000个单词 | Add Dataset to Quote | tpi_PNG_PHON | Appen Global | 发音词典 | 托克皮辛语 | 巴布亚新几内亚 | N/A | N/A | N/A | N/A | 10 000 | N/A | text | 托皮辛(巴布亚新几内亚)发音词典 | ||
Dataset 文本 | 挪威语(挪威)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 115,000个单词 | Add Dataset to Quote | nor_NOR_PHON | Appen Global | 发音词典 | 挪威语 | 挪威 | N/A | N/A | N/A | N/A | 115 000 | N/A | text | 挪威语(挪威)发音词典 | ||
Dataset 文本 | 挪威语(挪威)词性词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 3,000个单词 | Add Dataset to Quote | nor_NOR_POS | Appen Global | 词性词典 | 挪威语 | 挪威 | N/A | N/A | N/A | N/A | 3 000 | N/A | text | 挪威语(挪威)词性词典 | ||
Dataset 文本 | 捷克文(捷克共和国)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 50,000个单词 | Add Dataset to Quote | ces_CZE_PHON | Appen Global | 发音词典 | 捷克语 | 捷克共和国 | N/A | N/A | N/A | N/A | 50 000 | N/A | text | 捷克文(捷克共和国)发音词典 | ||
Dataset 音频 | 捷克文(捷克共和国)有定稿的电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 仅固定电话 | Unit: 93小时 | Add Dataset to Quote | Czech SpeechDat(E) Dataset | Nuance | 有定稿的录音 | 捷克语 | 捷克共和国 | 低背景噪音 | 1 000 | 1 | 52 000 | 可根据要求提供 | 8 | alaw | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个发音人录制52个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 |
捷克文(捷克共和国)有定稿的电话录音语料库 | |
Dataset 音频 | 捷克文(捷克共和国)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 31小时 | Add Dataset to Quote | CZE_ASR001 | Global Phone | 有定稿的录音 | 捷克语 | 捷克共和国 | 低背景噪音(家庭/办公室) | 102 | 1 | 12 425 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 |
捷克文(捷克共和国)有定稿的麦克风录音语料库 | |
Dataset 音频 | 斯洛伐克(Slovakia)有定稿的电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 仅固定电话 | Unit: 65小时 | Add Dataset to Quote | Slovak SpeechDat(E) Database | Nuance | 有定稿的录音 | 斯洛伐克语 | 斯洛伐克 | 低背景噪音 | 1 000 | 1 | 48 000 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个发音人录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 |
斯洛伐克(Slovakia)有定稿的电话录音语料库 | |
Dataset 音频 | 斯洛文尼亚语(Slovenian)电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 仅固定电话 | Unit: 76小时 | Add Dataset to Quote | Slovenian SpeechDat(II) FDB-1000 | Nuance | 有定稿的录音 | 斯洛维尼亚语 | 斯洛文尼亚 | 低背景噪音(家庭/办公室) | 1 000 | 1 | 40 000 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个发音人录制大约40个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 |
斯洛文尼亚语(Slovenian)电话录音语料库 | |
Dataset 文本 | 斯瓦希里语(肯尼亚)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 66,000个单词 | Add Dataset to Quote | swa_KEN_PHON | Appen Global | 发音词典 | 斯瓦西里语 | 肯尼亚 | N/A | N/A | N/A | N/A | 66 000 | N/A | text | 斯瓦希里语(肯尼亚)发音词典 | ||
Dataset 音频 | 旁遮普语(巴基斯坦)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 20小时 | Add Dataset to Quote | PAP_ASR001 | Appen Global | 对话录音 | 旁遮普语 | 巴基斯坦 | 低背景噪音 | 205 | 2 | 可根据要求提供 | 7 298 | 8 | alaw | 数据集已完全转录并加盖了时间戳 数据集附带一个包含所有转录词的发音词典 在71%的对话中,对话双方(呼入者和呼出者)的说话内容都被收集转录了,在剩下的29%的对话中,只有一半的对话被收集并转录了 |
旁遮普语(巴基斯坦)对话式的电话录音语料库 | |
Dataset 文本 | 日语NER语料库 | Common Use Cases: NER, 内容分类, 搜索引擎 | Recording Device: N/A | Unit: 20,629个句子 | Add Dataset to Quote | JPY_NER001 | Appen Global | NER | 日语 | 日本 | N/A | N/A | N/A | 20 629 | 可根据要求提供 | N/A | text | 日语NER语料库 | ||
Dataset 音频 | 日语自由说语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 3.38小时 | Add Dataset to Quote | JAP_ASR001_CN | Appen China | 自由说 | 日语 | 日本 | 低背景噪音(家庭/办公室) | 6 | NA | NA | 16 | wav | 日语自由说语音数据库 | |||
Dataset 文本 | 日语(日本)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 262,000个单词 | Add Dataset to Quote | jpn_JPN_PHON | Appen Global | 发音词典 | 日语 | 日本 | N/A | N/A | N/A | N/A | 262 000 | N/A | text | 日语(日本)发音词典 | ||
Dataset 音频 | 日语(日本)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 33小时 | Add Dataset to Quote | JPN_ASR001 | Global Phone | 有定稿的录音 | 日语 | 日本 | 低背景噪音(家庭/办公室) | 144 | 1 | 13 067 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 |
日语(日本)有定稿的麦克风录音语料库 | |
Dataset 音频 | 日语(日本)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 57小时 | Add Dataset to Quote | Speecon Japanese | Nuance | 有定稿的录音 | 日语 | 日本 | 混合(办公室/娱乐场所/车内/公共场所) | 600(550个成年语料提供者及50个儿童语料提供者) | 4 | 170 000 | 可根据要求提供 | 16 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料 |
日语(日本)有定稿的麦克风录音语料库 | |
Dataset 文本 | 日语(日本)词性词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 265,000个单词 | Add Dataset to Quote | jpn_JPN_POS | Appen Global | 词性词典 | 日语 | 日本 | N/A | N/A | N/A | N/A | 265 000 | N/A | text | 日语(日本)词性词典 | ||
Dataset 音频 | 昆明语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 2.53小时 | Add Dataset to Quote | KUNMING_ASR001_CN | Appen China | 语料朗读 | 昆明 | 中国 | 低背景噪音(家庭/办公室) | 8 | NA | NA | 16 | wav | 昆明语音数据库 | |||
Dataset 文本 | 普什图(阿富汗)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 65,000个单词 | Add Dataset to Quote | pus_AFG_PHON | Appen Global | 发音词典 | 普什图语 | 阿富汗 | N/A | N/A | N/A | N/A | 65 000 | N/A | text | 普什图(阿富汗)发音词典 | ||
Dataset 音频 | 普什图(阿富汗)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 55小时 | Add Dataset to Quote | PAS_ASR001 | Appen Global | 对话录音 | 普什图语 | 阿富汗 | 低背景噪音 | 967 | 2 | 可根据要求提供 | 13 633 | 8 | wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 在大多数的通话中,对话双方的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话被收集并转录了 |
普什图(阿富汗)对话式的电话录音语料库 | |
Dataset 音频 | 普什图(阿富汗)对话式麦克风录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 麦克风 | Unit: 39小时 | Add Dataset to Quote | PAS_ASR002 | Appen Global | 对话录音 | 普什图语 | 阿富汗 | 低背景噪音 | 40 | 2 | 可根据要求提供 | 9 480 | 16 | wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 转录文本可全部被翻译成法文, 作为可选的额外购买项 平均通话时间为120分钟,每则通话中由一名发言人担任采访者,另一名发言人担任受访者,模仿类似于TransTAC风格的场景(例如民政事务询问,检查站询问等) 面试官出现在不止一组对话中,但每组对话中的被面试者都是唯一的 |
普什图(阿富汗)对话式麦克风录音语料库 | |
Dataset 音频 | 普什图(阿富汗)广播录音数据库 | Common Use Cases: ASR, 自动字幕, 关键字检索 | Recording Device: 麦克风 | Unit: 51小时 | Add Dataset to Quote | PAS_BRC001 | Appen Global | 广播录音 | 普什图语 | 阿富汗 | 低背景噪音(录音棚) | N/A | 1 | 可根据要求提供 | 可根据要求提供 | N/A | wav | 数据集已完全转录并加上时间戳 数据集主要是语音,不包括音乐或广告 数据类型包括:脱口秀,访谈,新闻广播(不包括主持人阅读的新闻) |
普什图(阿富汗)广播录音数据库 | |
Dataset 文本 | 普通话NER语料库 | Common Use Cases: NER, 内容分类, 搜索引擎 | Recording Device: N/A | Unit: 17,313个句子 | Add Dataset to Quote | MAC_NER001 | Appen Global | NER | 普通话 | 中国 | N/A | N/A | N/A | 17 313 | 可根据要求提供 | N/A | text | 普通话NER语料库 | ||
Dataset 音频 | 普通话(中国)有定稿的电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 移动电话和固定电话 | Unit: 323小时 | Add Dataset to Quote | MAC_ASR001 | Appen Global | 有定稿的录音 | 普通话 | 中国 | 混合 | 2 000 | 1 | 200 000 | 7 145 | 8 | alaw | 完全转录为SpeechDAT类型 数据集附带一个包含所有转录词的发音词典[SAMPA] 每个发音人录制98个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令(从215个指令中挑选),语音丰富的句子和单词 |
普通话(中国)有定稿的电话录音语料库 | |
Dataset 音频 | 普通话(中国)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 26小时 | Add Dataset to Quote | MAC_ASR002 | Global Phone | 有定稿的录音 | 普通话 | 中国 | 低背景噪音(家庭/办公室) | 132 | 1 | 10 225 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 |
普通话(中国)有定稿的麦克风录音语料库 | |
Dataset 文本 | 普通话(简体)(中国)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 35,000个单词 | Add Dataset to Quote | zho_CHN_PHON | Appen Global | 发音词典 | 中文(简体) | 中国 | N/A | N/A | N/A | N/A | 35 000 | N/A | text | 普通话(简体)(中国)发音词典 | ||
Dataset 文本 | 普通话(繁体)(台湾)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 50,000个单词 | Add Dataset to Quote | zho_TWN_PHON | Appen Global | 发音词典 | 中文(繁体) | 台湾 | N/A | N/A | N/A | N/A | 50 000 | N/A | text | 普通话(繁体)(台湾)发音词典 | ||
Dataset 音频 | 杭州方言语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 2.49小时 | Add Dataset to Quote | HANGZHOU_ASR001_CN | Appen China | 语料朗读 | 杭州方言 | 中国 | 低背景噪音(家庭/办公室) | 10 | NA | NA | 16 | wav | 杭州方言语音数据库 | |||
Dataset 音频 | 武汉方言(中国)多人对话式录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 录音笔/麦克风 | Unit: 42.7小时 | Add Dataset to Quote | WUHAN_ASR001_CN | Appen China | 对话录音 | 武汉方言 | 中国 | 低背景噪音(家庭/办公室) | 135 | 1 | NA | NA | 16 | wav | 覆盖地区: 武汉市下辖的江岸、江汉、硚口、汉阳、武昌五区 注:数据不包含东北郊区口音数据以及未成年人录制数据。 单人发音时长约40分钟,单个语音对话20~30分钟之间 内容为2~5人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。 数据库只是语音库,不含有转写文字 | 武汉方言(中国)多人对话式录音语料库 | |
Dataset 音频 | 武汉方言(中国)多人对话式录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话 | Unit: 58.1小时 | Add Dataset to Quote | WUHAN_ASR002_CN | Appen China | 对话录音 | 武汉方言 | 中国 | 低背景噪音(家庭/办公室) | 180 | 1 | NA | NA | 8 | wav | 覆盖地区:武汉市下辖的江岸、江汉、硚口、汉阳、武昌五区 注:数据不包含东北郊区口音数据以及未成年人录制数据。 单人发音时长约40分钟,单个语音对话20~30分钟之间 内容为2~5人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。 数据库只是语音库,不含有转写文字 | 武汉方言(中国)多人对话式录音语料库 | |
Dataset 音频 | 武汉语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 3.19小时 | Add Dataset to Quote | WUHAN_ASR003_CN | Appen China | 语料朗读 | 武汉 | 中国 | 低背景噪音(家庭/办公室) | 8 | NA | NA | 16 | wav | 武汉语音数据库 | |||
Dataset 音频 | 河南语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 2.9小时 | Add Dataset to Quote | HENAN_ASR001_CN | Appen China | 语料朗读 | 河南 | 中国 | 低背景噪音(家庭/办公室) | 7 | NA | NA | 16 | wav | 河南语音数据库 | |||
Dataset 音频 | 法语 (法国)自由说语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 16.6小时 | Add Dataset to Quote | FRA_ASR004_CN | Appen China | 自由说 | 法语 (法国) | 法国 | 低背景噪音(家庭/办公室) | 96 | 1 | NA | NA | 16 | wav | 法语 (法国)自由说语音数据库 | ||
Dataset 文本 | 法语(加拿大)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 67,000个单词 | Add Dataset to Quote | fra_CAN_PHON | Appen Global | 发音词典 | 法语 | 加拿大 | N/A | N/A | N/A | N/A | 67 000 | N/A | text | 法语(加拿大)发音词典 | ||
Dataset 音频 | 法语(加拿大)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 9小时 | Add Dataset to Quote | FRC_ASR003 | Appen Global | 对话录音 | 法语 | 加拿大 | 混合 | 68 | 2 | 可根据要求提供 | 6 022 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 平均通话时长为10到15分钟 在大多数通话中,只有一半的对话被收集并转录了,但是对于一小部分的通话,对话双方(呼入者和呼出者)的说话内容都被收集并转录了 |
法语(加拿大)对话式的电话录音语料库 | |
Dataset 音频 | 法语(加拿大)有定稿的电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 移动电话 | Unit: 131小时 | Add Dataset to Quote | FRC_ASR001 | Appen Global | 有定稿的录音 | 法语 | 加拿大 | 混合 | 1 000 | 1 | 100 000 | 11 697 | 8 | alaw | 完全转录为SpeechDAT类型 数据集附带一个包含所有转录词的发音词典[SAMPA] 每个发音人录制100个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 |
法语(加拿大)有定稿的电话录音语料库 | |
Dataset 音频 | 法语(加拿大)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 46小时 | Add Dataset to Quote | FRC_ASR002 | Appen Global | 有定稿的录音 | 法语 | 加拿大 | 低背景噪音(家庭/办公室) | 150 | 1 | 22 500 | 10 755 | 16 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 每个发音人录制150个语料,语料包含数字,数字串(随机生成的),地址,语音丰富的句子和单词 |
法语(加拿大)有定稿的麦克风录音语料库 | |
Dataset 音频 | 法语(卢森堡)电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 仅固定电话 | Unit: 45小时 | Add Dataset to Quote | Luxembourgish French SpeechDat(II) FDB-500 (FIXED1LF) | Nuance | 有定稿的录音 | 法语 | 卢森堡 | 低背景噪音 | 614 | 1 | 32 000 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个发音人录制53个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 |
法语(卢森堡)电话录音语料库 | |
Dataset 音频 | 法语(比利时)有定稿的电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 仅固定电话 | Unit: 76小时 | Add Dataset to Quote | Belgian French SpeechDat(II) FDB-1000 (FIXED1BF) | Nuance | 有定稿的录音 | 法语 | 比利时 | 低背景噪音 | 1 000 | 1 | 53 000 | 可根据要求提供 | 8 | alaw | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个发音人录制53个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令 |
法语(比利时)有定稿的电话录音语料库 | |
Dataset 文本 | 法语(法国)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 112,000个单词 | Add Dataset to Quote | fra_FRA_PHON | Appen Global | 发音词典 | 法语 | 法国 | N/A | N/A | N/A | N/A | 112 000 | N/A | text | 法语(法国)发音词典 | ||
Dataset 音频 | 法语(法国)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 25小时 | Add Dataset to Quote | FRF_ASR001 | Appen Global | 对话录音 | 法语 | 法国 | 低背景噪音 | 563 | 2 | 可根据要求提供 | 11 922 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 在大多数的通话中,对话双方的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话被收集并转录了 |
法语(法国)对话式的电话录音语料库 | |
Dataset 音频 | 法语(法国)有定稿的电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 仅固定电话 | Unit: 41小时 | Add Dataset to Quote | French SpeechDat(II) FDB-1000 | Nuance | 有定稿的录音 | 法语 | 法国 | 低背景噪音(家庭/办公室) | 1 017 | 1 | 48 000 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个发音人录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 |
法语(法国)有定稿的电话录音语料库 | |
Dataset 音频 | 法语(法国)有定稿的电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 仅固定电话 | Unit: 305小时 | Add Dataset to Quote | French SpeechDat(II) FDB-5000 | Nuance | 有定稿的录音 | 法语 | 法国 | 低背景噪音 | 5 040 | 1 | 237 000 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个发音人录制47个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 |
法语(法国)有定稿的电话录音语料库 | |
Dataset 音频 | 法语(法国)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 26小时 | Add Dataset to Quote | FRF_ASR003 | Global Phone | 有定稿的录音 | 法语 | 法国 | 低背景噪音(家庭/办公室) | 98 | 1 | 10 273 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 |
法语(法国)有定稿的麦克风录音语料库 | |
Dataset 文本 | 法语(法国)词性词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 95,000个单词 | Add Dataset to Quote | fra_FRA_POS | Appen Global | 词性词典 | 法语 | 法国 | N/A | N/A | N/A | N/A | 95 000 | N/A | text | 法语(法国)词性词典 | ||
Dataset 音频 | 法语(法国)车内录音语料库 | Common Use Cases: ASR, 虚拟助手, 车载HMI及娱乐设备 | Recording Device: 麦克风和移动电话 | Unit: | Add Dataset to Quote | French SpeechDat-Car | Nuance | 有定稿的录音 | 法语 | 法国 | 混合(车内) | 300 | 5 | 37 500 | 可根据要求提供 | 16和8 | 可根据要求提供 | 数据集已完全转录,并附有发音词典和验证报告 每个发音人录制大约125个语料,语料包含数字,自然数,字母串,个人、地点和企业名称(一些是自由发挥的),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的语料 |
法语(法国)车内录音语料库 | |
Dataset 文本 | 法语(阿尔及利亚)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 4,000个单词 | Add Dataset to Quote | fra_DZA_PHON | Appen Global | 发音词典 | 法语 | 阿尔及利亚 | N/A | N/A | N/A | N/A | 4 000 | N/A | text | 阿拉伯文字 | 法语(阿尔及利亚)发音词典 | |
Dataset 文本 | 波兰语(波兰)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 40,000个单词 | Add Dataset to Quote | pol_POL_PHON | Appen Global | 发音词典 | 波兰语 | 波兰 | N/A | N/A | N/A | N/A | 40 000 | N/A | text | 波兰语(波兰)发音词典 | ||
Dataset 音频 | 波兰语(波兰)有定稿的智能手机录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 移动电话 | Unit: 293小时 | Add Dataset to Quote | POL_ASR002_CN | Appen China | 有定稿的录音 | 波兰语 | 波兰 | 低背景噪音(家庭/办公室) | 353 | 1 | 106 674 | 168 544 | 16 | wav | 数据集已完全转录 | 波兰语(波兰)有定稿的智能手机录音语料库 | |
Dataset 音频 | 波兰语(波兰)有定稿的电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 仅固定电话 | Unit: 78小时 | Add Dataset to Quote | Polish SpeechDat(E) Database | Nuance | 有定稿的录音 | 波兰语 | 波兰 | 低背景噪音 | 1 000 | 1 | 48 000 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个发音人录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 |
波兰语(波兰)有定稿的电话录音语料库 | |
Dataset 音频 | 波兰语(波兰)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 25小时 | Add Dataset to Quote | POL_ASR001 | Global Phone | 有定稿的录音 | 波兰语 | 波兰 | 低背景噪音(家庭/办公室) | 99 | 1 | 10 130 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 |
波兰语(波兰)有定稿的麦克风录音语料库 | |
Dataset 文本 | 波兰语(波兰)词性词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 4,000个单词 | Add Dataset to Quote | pol_POL_POS | Appen Global | 词性词典 | 波兰语 | 波兰 | N/A | N/A | N/A | N/A | 4 000 | N/A | text | 波兰语(波兰)词性词典 | ||
Dataset 文本 | 波斯语NER语料库 | Common Use Cases: NER, 内容分类, 搜索引擎 | Recording Device: N/A | Unit: 19,584个句子 | Add Dataset to Quote | FAR_NER001 | Appen Global | NER | 波斯语 | 伊朗 | N/A | N/A | N/A | 19 584 | 可根据要求提供 | N/A | text | 波斯语NER语料库 | ||
Dataset 音频 | 波斯语(伊朗)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 30小时 | Add Dataset to Quote | FAR_ASR002 | Appen Global | 对话录音 | 波斯语 | 伊朗 | 混合 | 1 000 | 2 | 可根据要求提供 | 12 358 | 8 | wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 |
波斯语(伊朗)对话式的电话录音语料库 | |
Dataset 音频 | 波斯语(伊朗)有定稿的电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 移动电话和固定电话 | Unit: 85小时 | Add Dataset to Quote | FAR_ASR001 | Appen Global | 有定稿的录音 | 波斯语 | 伊朗 | 混合 | 789 | 1 | 38 400 | 8 716 | 8 | alaw | 完全转录为OrienTel类型 数据集附带一个包含所有转录词的发音词典[SAMPA] 每个发音人录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 |
波斯语(伊朗)有定稿的电话录音语料库 | |
Dataset 文本 | 泰卢固语(印度)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 50,000个单词 | Add Dataset to Quote | tel_IND_PHON | Appen Global | 发音词典 | 泰卢固语 | 印度 | N/A | N/A | N/A | N/A | 50 000 | N/A | text | 泰卢固语(印度)发音词典 | ||
Dataset 文本 | 泰米尔文(印度)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 105,000个单词 | Add Dataset to Quote | tam_IND_PHON | Appen Global | 发音词典 | 泰米尔语 | 印度 | N/A | N/A | N/A | N/A | 105 000 | N/A | text | 泰米尔文(印度)发音词典 | ||
Dataset 音频 | 泰语自由说语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 2.95小时 | Add Dataset to Quote | THA_ASR002_CN | Appen China | 自由说 | 泰语(泰国) | 泰国 | 低背景噪音(家庭/办公室) | NA | NA | 17 | wav | 泰语自由说语音数据库 | ||||
Dataset 图像 | 泰语(泰国)印刷文本OCR | Common Use Cases: 文件处理, 文件搜索 | Recording Device: 照相机 | Unit: 1219张图片 | Add Dataset to Quote | IMG_OCR_THA_CN | Appen China | OCR | 泰语 | 泰国 | 不同光线 | 10 | NA | NA | NA | NA | jpg | 包含文字的图像,例如购物收据,票据,发票,出租车发票等等 | 泰语(泰国)印刷文本OCR | |
Dataset 文本 | 泰语(泰国)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 30,000个单词 | Add Dataset to Quote | tha_THA_PHON | Appen Global | 发音词典 | 泰语 | 泰国 | N/A | N/A | N/A | N/A | 30 000 | N/A | text | 泰语(泰国)发音词典 | ||
Dataset 音频 | 泰语(泰国)麦克风录音数据库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 28小时 | Add Dataset to Quote | THA_ASR001 | Global Phone | 有定稿的录音 | 泰语 | 泰国 | 低背景噪音(家庭/办公室) | 98 | 1 | 14 039 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 |
泰语(泰国)麦克风录音数据库 | |
Dataset 文本 | 海地克里奥尔语(海地)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 15,000个单词 | Add Dataset to Quote | hat_HTI_PHON | Appen Global | 发音词典 | 海地克里奥尔语 | 海地 | N/A | N/A | N/A | N/A | 15 000 | N/A | text | 海地克里奥尔语(海地)发音词典 | ||
Dataset 文本 | 湘语(中国)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 10,000个单词 | Add Dataset to Quote | hsn_CHN_PHON | Appen Global | 发音词典 | 湘语 | 中国 | N/A | N/A | N/A | N/A | 10 000 | N/A | text | 湘语(中国)发音词典 | ||
Dataset 文本 | 爪哇语(印度尼西亚)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 20,000个单词 | Add Dataset to Quote | jav_IDN_PHON | Appen Global | 发音词典 | 爪哇语 | 印度尼西亚 | N/A | N/A | N/A | N/A | 20 000 | N/A | text | 爪哇语(印度尼西亚)发音词典 | ||
Dataset 文本 | 瑞典文(瑞典)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 100,000个单词 | Add Dataset to Quote | swe_SWE_PHON | Appen Global | 发音词典 | 瑞典语 | 瑞典 | N/A | N/A | N/A | N/A | 100 000 | N/A | text | 瑞典文(瑞典)发音词典 | ||
Dataset 文本 | 瑞典文(瑞典)词性词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 105,000个单词 | Add Dataset to Quote | swe_SWE_POS | Appen Global | 词性词典 | 瑞典语 | 瑞典 | N/A | N/A | N/A | N/A | 105 000 | N/A | text | 瑞典文(瑞典)词性词典 | ||
Dataset 音频 | 瑞典(瑞典/芬兰)麦克风录音数据库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 30小时 | Add Dataset to Quote | SWE_ASR001 | Global Phone | 有定稿的录音 | 瑞典语 | 瑞典-芬兰 | 低背景噪音(家庭/办公室) | 98 | 1 | 11 816 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 |
瑞典(瑞典/芬兰)麦克风录音数据库 | |
Dataset 文本 | 瓜拉尼语(巴拉圭)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 35,000个单词 | Add Dataset to Quote | grn_PRY_PHON | Appen Global | 发音词典 | 瓜拉尼语 | 巴拉圭 | N/A | N/A | N/A | N/A | 35 000 | N/A | text | 瓜拉尼语(巴拉圭)发音词典 | ||
Dataset 文本 | 祖鲁人(南非)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 75,000个单词 | Add Dataset to Quote | zul_ZAF_PHON | Appen Global | 发音词典 | 祖鲁语 | 南非 | N/A | N/A | N/A | N/A | 75 000 | N/A | text | 祖鲁人(南非)发音词典 | ||
Dataset 文本 | 立陶宛语(立陶宛)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 60,000个单词 | Add Dataset to Quote | lit_LTU_PHON | Appen Global | 发音词典 | 立陶宛语 | 立陶宛 | N/A | N/A | N/A | N/A | 60 000 | N/A | text | 立陶宛语(立陶宛)发音词典 | ||
Dataset 图像 | 简体中文印刷文本OCR | Common Use Cases: 文件处理, 文件搜索 | Recording Device: 照相机 | Unit: 200张图片 | Add Dataset to Quote | IMG_OCR_MAC_CN | Appen China | OCR | N/A | 中国 | 不同光线 | 30 | NA | NA | NA | NA | jpg | 每张图片中的文字均被线条边框所标记 包含大量中文的图像,例如书籍,出版物,海报,收据,PPT以及印刷品等等 |
简体中文印刷文本OCR | |
Dataset 文本 | 索拉尼(伊拉克)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 25,000个单词 | Add Dataset to Quote | kur_IRQ_PHON | Appen Global | 发音词典 | 索马里语 | 伊拉克 | N/A | N/A | N/A | N/A | 25 000 | N/A | text | 索拉尼(伊拉克)发音词典 | ||
Dataset 文本 | 索马里(索马里)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 76,000个单词 | Add Dataset to Quote | som_SOM_PHON | Appen Global | 发音词典 | 索马里语 | 索马里 | N/A | N/A | N/A | N/A | 76 000 | N/A | text | 索马里(索马里)发音词典 | ||
Dataset 音频 | 索马里(索马里)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 50小时 | Add Dataset to Quote | SOM_ASR001 | Appen Global | 对话录音 | 索马里语 | 索马里 | 低背景噪音 | 1 000 | 2 | 可根据要求提供 | 23 217 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 |
索马里(索马里)对话式的电话录音语料库 | |
Dataset 音频 | 维吾尔方言(中国)双人对话式录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话 | Unit: 122小时 | Add Dataset to Quote | WWE_ASR001_CN | Appen China | 对话录音 | 维吾尔族语 | 中国 | 低背景噪音(家庭/办公室) | 231 | 1 | NA | NA | 16 | wav | 覆盖地区: 和田方言,中央方言。 单人发音时长约30分钟,内容为2人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。 数据库只是语音库,不含有转写文字 | 维吾尔方言(中国)双人对话式录音语料库 | |
Dataset 音频 | 维语语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 3.9小时 | Add Dataset to Quote | WWE_ASR002_CN | Appen China | 语料朗读 | 维语 | 中国 | 低背景噪音(家庭/办公室) | N/A | NA | NA | 16 | wav | 主题有歌曲,赛事,游戏 | 维语语音数据库 | ||
Dataset 文本 | 罗马尼亚语(罗马尼亚)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 15,000个单词 | Add Dataset to Quote | ron_ROU_PHON | Appen Global | 发音词典 | 罗马尼亚语 | 罗马尼亚 | N/A | N/A | N/A | N/A | 15 000 | N/A | text | 罗马尼亚语(罗马尼亚)发音词典 | ||
Dataset 音频 | 罗马尼亚语(罗马尼亚)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 37小时 | Add Dataset to Quote | ROM_ASR001 | Appen Global | 对话录音 | 罗马尼亚语 | 罗马尼亚 | 低背景噪音 | 200 | 2 | 可根据要求提供 | 16 658 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一 |
罗马尼亚语(罗马尼亚)对话式的电话录音语料库 | |
Dataset 文本 | 老挝(老挝)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 9,000个单词 | Add Dataset to Quote | lao_LAO_PHON | Appen Global | 发音词典 | 老挝语 | 老挝 | N/A | N/A | N/A | N/A | 9 000 | N/A | text | 老挝(老挝)发音词典 | ||
Dataset 图像 | 芬兰语(芬兰)印刷文本OCR | Common Use Cases: 文件处理, 文件搜索 | Recording Device: 照相机 | Unit: 7293张图片 | Add Dataset to Quote | IMG_OCR_FIN_CN | Appen China | OCR | 芬兰语 | 芬兰 | 不同光线 | 4 | NA | NA | NA | NA | jpg | 包含文字的图像,例如广告牌,产品外包装,标志牌,杂志以及菜单等等 | 芬兰语(芬兰)印刷文本OCR | |
Dataset 文本 | 芬兰语(芬兰)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 85,000个单词 | Add Dataset to Quote | fin_FIN_PHON | Appen Global | 发音词典 | 芬兰语 | 芬兰 | N/A | N/A | N/A | N/A | 85 000 | N/A | text | 芬兰语(芬兰)发音词典 | ||
Dataset 文本 | 芬兰语(芬兰)词性词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 10,000个单词 | Add Dataset to Quote | fin_FIN_POS | Appen Global | 词性词典 | 芬兰语 | 芬兰 | N/A | N/A | N/A | N/A | 10 000 | N/A | text | 芬兰语(芬兰)词性词典 | ||
Dataset 音频 | 苏州方言语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 2.84小时 | Add Dataset to Quote | SUZHOU_ASR001_CN | Appen China | 语料朗读 | 苏州方言 | 中国 | 低背景噪音(家庭/办公室) | 8 | NA | NA | 16 | wav | 苏州方言语音数据库 | |||
Dataset 文本 | 英文(加拿大)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 50,000个单词 | Add Dataset to Quote | eng_CAN_PHON | Appen Global | 发音词典 | 英语 | 加拿大 | N/A | N/A | N/A | N/A | 50 000 | N/A | text | 英文(加拿大)发音词典 | ||
Dataset 音频 | 英文(加拿大)有定稿的电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 移动电话和固定电话 | Unit: 144小时 | Add Dataset to Quote | ENC_ASR001 | Appen Global | 有定稿的录音 | 英语 | 加拿大 | 混合 | 1 000 | 1 | 99 000 | 12 483 | 8 | alaw或wav | 完全转录为SALA II/SpeechDAT类型 数据集附带一个包含所有转录词的发音词典 每个发音人录制99个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 |
英文(加拿大)有定稿的电话录音语料库 | |
Dataset 文本 | 英文(加拿大)词性词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 3,000个单词 | Add Dataset to Quote | eng_CAN_POS | Appen Global | 词性词典 | 英语 | 加拿大 | N/A | N/A | N/A | N/A | 3 000 | N/A | text | 英文(加拿大)词性词典 | ||
Dataset 文本 | 英文(印度)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 60,000个单词 | Add Dataset to Quote | eng_IND_PHON | Appen Global | 发音词典 | 英语 | 印度 | N/A | N/A | N/A | N/A | 60 000 | N/A | text | 英文(印度)发音词典 | ||
Dataset 音频 | 英文(印度)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 67小时 | Add Dataset to Quote | ENI_ASR002 | Appen Global | 对话录音 | 英语 | 印度 | 低背景噪音 | 540 | 2 | 77 565 | 11 646 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 这个项目记录了271个电话对话 |
英文(印度)对话式的电话录音语料库 | |
Dataset 音频 | 英文(印度)有定稿的电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 移动电话和固定电话 | Unit: 217小时 | Add Dataset to Quote | ENI_ASR001 | Appen Global | 有定稿的录音 | 英语 | 印度 | 混合 | 2 358 | 1 | 117 900 | 9 190 | 8 | alaw | 完全转录为SpeechDAT类型 数据集附带一个包含所有转录词的发音词典[SAMPA] 每个发音人录制49个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 |
英文(印度)有定稿的电话录音语料库 | |
Dataset 文本 | 英文(印度)词性词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 13,000个单词 | Add Dataset to Quote | eng_IND_POS | Appen Global | 词性词典 | 英语 | 印度 | N/A | N/A | N/A | N/A | 13 000 | N/A | text | 英文(印度)词性词典 | ||
Dataset 文本 | 英文(菲律宾)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 5,000个单词 | Add Dataset to Quote | eng_PHL_PHON | Appen Global | 发音词典 | 英语 | 菲律宾 | N/A | N/A | N/A | N/A | 5 000 | N/A | text | 英文(菲律宾)发音词典 | ||
Dataset 音频 | 英文(菲律宾)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 53小时 | Add Dataset to Quote | ENF_ASR001 | Appen Global | 对话录音 | 英语 | 菲律宾 | 低背景噪音 | 450 | 2 | 41 602 | 7 272 | 8 | alaw或wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 平均通话时长为10到15分钟 |
英文(菲律宾)对话式的电话录音语料库 | |
Dataset 音频 | 英文(阿拉伯文-黎凡特/埃及)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 28小时 | Add Dataset to Quote | ENA_ASR001 | Appen Global | 对话录音 | 英语 | 埃及 | 低背景噪音 | 250 | 2 | 可根据要求提供 | 5 619 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 平均通话时长为10到15分钟 |
英文(阿拉伯文-黎凡特/埃及)对话式的电话录音语料库 | |
Dataset 文本 | 英语NER语料库 | Common Use Cases: NER, 内容分类, 搜索引擎 | Recording Device: N/A | Unit: 22,768个句子 | Add Dataset to Quote | ENG_NER001 | Appen Global | NER | 英语 | N/A | N/A | N/A | N/A | 22 768 | 可根据要求提供 | N/A | text | 英语NER语料库 | ||
Dataset 文本 | 英语(澳大利亚)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 157,000个单词 | Add Dataset to Quote | eng_AUS_PHON | Appen Global | 发音词典 | 英语 | 澳大利亚 | N/A | N/A | N/A | N/A | 157 000 | N/A | text | 英语(澳大利亚)发音词典 | ||
Dataset 音频 | 英语(澳大利亚)有定稿的电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 移动电话和固定电话 | Unit: 92小时 | Add Dataset to Quote | AUS_ASR001 | Appen Global | 有定稿的录音 | 英语 | 澳大利亚 | 低背景噪音(家庭/办公室) | 500 | 1 | 82 500 | 35 137 | 8 | alaw | 完全转录为SpeechDAT类型 数据集附带一个包含所有转录词的发音词典 每个发音人录制162个朗读录音,录音包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令(从215个指令中挑选),语音丰富的句子和单词 |
英语(澳大利亚)有定稿的电话录音语料库 | |
Dataset 音频 | 英语(澳大利亚)有定稿的电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 移动电话和固定电话 | Unit: 118小时 | Add Dataset to Quote | AUS_ASR002 | Appen Global | 有定稿的录音 | 英语 | 澳大利亚 | 混合 | 1 000 | 1 | 75 000 | 19 | 8 | alaw | 完全转录为SpeechDAT类型 数据集附带一个包含所有转录词的发音词典 每个发音人录制75个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 语料包含了有定稿的录音和自由发挥的录音,其中每个稿子包含了5条自由发挥的录音 |
英语(澳大利亚)有定稿的电话录音语料库 | |
Dataset 文本 | 英语(爱尔兰)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 12,000个单词 | Add Dataset to Quote | eng_IRL_PHON | Appen Global | 发音词典 | 英语 | 爱尔兰 | N/A | N/A | N/A | N/A | 12 000 | N/A | text | 英语(爱尔兰)发音词典 | ||
Dataset 文本 | 英语(纽西兰)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 50,000个单词 | Add Dataset to Quote | eng_NZL_PHON | Appen Global | 发音词典 | 英语 | 纽西兰 | N/A | N/A | N/A | N/A | 50 000 | N/A | text | 英语(纽西兰)发音词典 | ||
Dataset 文本 | 英语(美国)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 330,000个单词 | Add Dataset to Quote | eng_USA_PHON | Appen Global | 发音词典 | 英语 | 美国 | N/A | N/A | N/A | N/A | 330 000 | N/A | text | 英语(美国)发音词典 | ||
Dataset 音频 | 英语(美国)对话式的智能手机录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话 | Unit: 1000小时 | Add Dataset to Quote | USE_ASR003 | Appen Global | 对话录音 | 英语 | 美国 | 低背景噪音 | 2 000 | 1 | 500 000 | 52 586 | 16 | wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 对话涵盖了各种主题,包括学习/专业/工作,家乡,生活安排,天气和季节,准时,电视节目/电影 |
英语(美国)对话式的智能手机录音语料库 | |
Dataset 音频 | 英语(美国)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 53小时 | Add Dataset to Quote | Speecon English (USA) database | Nuance | 有定稿的录音 | 英语 | 美国 | 混合(办公室/娱乐场所/车内/公共场所) | 600(550个成年语料提供者及50个儿童语料提供者) | 4 | 170 000 | 可根据要求提供 | 16 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料 |
英语(美国)有定稿的麦克风录音语料库 | |
Dataset 音频 | 英语(美国)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 62小时 | Add Dataset to Quote | USE_ASR001 | Appen Global | 有定稿的录音 | 英语 | 美国 | 低背景噪音(录音棚) | 200 | 2 | 80 000 | 18 318 | 48 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 每个发音人录制400个语料,语料包括数字,自然数,人名,城市名,电话号码,通用指令和特定指令,语音丰富的句子和单词 |
英语(美国)有定稿的麦克风录音语料库 | |
Dataset 文本 | 英语(美国)词性词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 263,000个单词 | Add Dataset to Quote | eng_USA_POS | Appen Global | 词性词典 | 英语 | 美国 | N/A | N/A | N/A | N/A | 263 000 | N/A | text | 英语(美国)词性词典 | ||
Dataset 音频 | 英语(英国) | Common Use Cases: TTS | Recording Device: 头戴式麦克风 | Unit: 11小时 | Add Dataset to Quote | TC-STAR female baseline voice Laura | Nuance | 有定稿的录音 | 英语 | 英国 | 低背景噪音(录音棚) | 1 | 1 | 可根据要求提供 | 可根据要求提供 | 96 | 可根据要求提供 | 数据集包括人工正字法转录的转录文件,自动分割的音素,自动生成的音高标记(已手动检查了一定比例的语音段和音高标记) 数据集附有一个包含词性,词元和音标的发音词典 |
英语(英国) | |
Dataset 音频 | 英语(英国) | Common Use Cases: TTS | Recording Device: 头戴式麦克风 | Unit: 7小时 | Add Dataset to Quote | TC-STAR male baseline voice Ian | Nuance | 有定稿的录音 | 英语 | 英国 | 低背景噪音(录音棚) | 1 | 1 | 可根据要求提供 | 可根据要求提供 | 96 | 可根据要求提供 | 数据集包括人工正字法转录的转录文件,自动分割的音素,自动生成的音高标记(已手动检查了一定比例的语音段和音高标记) 数据集附有一个包含词性,词元和音标的发音词典 |
英语(英国) | |
Dataset 文本 | 英语(英国)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 195,000个单词 | Add Dataset to Quote | eng_GBR_PHON | Appen Global | 发音词典 | 英语 | 英国 | N/A | N/A | N/A | N/A | 195 000 | N/A | text | 英语(英国)发音词典 | ||
Dataset 音频 | 英语(英国)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 150小时 | Add Dataset to Quote | UKE_ASR001 | Appen Global | 对话录音 | 英语 | 英国 | 低背景噪音 | 1 150 | 2 | 298 562 | 24 193 | 8 | wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 |
英语(英国)对话式的电话录音语料库 | |
Dataset 音频 | 英语(英国)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 50小时 | Add Dataset to Quote | UKE_ASR001B | Appen Global | 对话录音 | 英语 | 英国 | 低背景噪音 | 1 150 | 2 | 可根据要求提供 | 13 192 | 8 | wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 |
英语(英国)对话式的电话录音语料库 | |
Dataset 文本 | 英语(英国)词性词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 155,000个单词 | Add Dataset to Quote | eng_GBR_POS | Appen Global | 词性词典 | 英语 | 英国 | N/A | N/A | N/A | N/A | 155 000 | N/A | text | 英语(英国)词性词典 | ||
Dataset 文本 | 英语(阿拉伯联合酋长国)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 5,000个单词 | Add Dataset to Quote | eng_ARE_PHON | Appen Global | 发音词典 | 英语 | 阿拉伯联合酋长国 | N/A | N/A | N/A | N/A | 5 000 | N/A | text | 英语(阿拉伯联合酋长国)发音词典 | ||
Dataset 音频 | 英语(阿拉伯联合酋长国)有定稿的电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 移动电话和固定电话 | Unit: 33小时 | Add Dataset to Quote | OrienTel English as spoken in the United Arab Emirates | Nuance | 有定稿的录音 | 英语 | 阿拉伯联合酋长国 | 低背景噪音 | 500 | 1 | 25 500 | 可根据要求提供 | 8 | alaw | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个发音人录制51个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令 |
英语(阿拉伯联合酋长国)有定稿的电话录音语料库 | |
Dataset 文本 | 英语(香港)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 18,000个单词 | Add Dataset to Quote | eng_HKG_PHON | Appen Global | 发音词典 | 英语 | 香港 | N/A | N/A | N/A | N/A | 18 000 | N/A | text | 英语(香港)发音词典 | ||
Dataset 音频 | 荷兰语(比利时)有定稿的电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 麦克风 | Unit: 80小时 | Add Dataset to Quote | Flemish SpeechDat(II) FDB-1000 (FIXED1FL) | Nuance | 有定稿的录音 | 荷兰语 | 比利时 | 低背景噪音 | 1 000 | 1 | 52 000 | 可根据要求提供 | 8 | alaw | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个发音人录制52个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令 |
荷兰语(比利时)有定稿的电话录音语料库 | |
Dataset 音频 | 荷兰语(比利时)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 47小时 | Add Dataset to Quote | Speecon Dutch from Belgium | Nuance | 有定稿的录音 | 荷兰语 | 比利时 | 混合(办公室/娱乐场所/车内/公共场所) | 600(550个成年语料提供者及50个儿童语料提供者) | 4 | 170 000 | 可根据要求提供 | 16 | alaw | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料 |
荷兰语(比利时)有定稿的麦克风录音语料库 | |
Dataset 音频 | 荷兰语(荷兰和比利时)有定稿的车内录音语料库 | Common Use Cases: ASR, 虚拟助手, 车载HMI及娱乐设备 | Recording Device: 麦克风和移动电话 | Unit: 27小时 | Add Dataset to Quote | Dutch and Flemish SpeechDat-Car | Nuance | 有定稿的录音 | 荷兰语 | 荷兰-比利时 | 混合(车内) | 302 | 5 | 15 100 | 可根据要求提供 | 16和8 | alaw | 数据集已完全转录,并附有发音词典和验证报告 每个成年发音人录制125个语料,语料包括数字,自然数,字母串,个人、地点和企业名称(一些是自由发挥的),通用指令和特定指令,语音丰富的句子和单词及自由发挥的语料 |
荷兰语(荷兰和比利时)有定稿的车内录音语料库 | |
Dataset 文本 | 荷兰语(荷兰)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 45,000个单词 | Add Dataset to Quote | nld_NLD_PHON | Appen Global | 发音词典 | 荷兰语 | 荷兰 | N/A | N/A | N/A | N/A | 45 000 | N/A | text | 荷兰语(荷兰)发音词典 | ||
Dataset 音频 | 荷兰语(荷兰)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 36小时 | Add Dataset to Quote | NLD_ASR001 | Appen Global | 对话录音 | 荷兰语 | 荷兰 | 低背景噪音 | 200 | 2 | 可根据要求提供 | 14 964 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一 |
荷兰语(荷兰)对话式的电话录音语料库 | |
Dataset 音频 | 荷兰语(荷兰)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 68小时 | Add Dataset to Quote | Speecon Dutch from the Netherlands | Nuance | 有定稿的录音 | 荷兰语 | 荷兰 | 混合(办公室/娱乐场所/车内/公共场所) | 600(550个成年语料提供者及50个儿童语料提供者) | 4 | 170 000 | 可根据要求提供 | 16 | alaw | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料 |
荷兰语(荷兰)有定稿的麦克风录音语料库 | |
Dataset 音频 | 葡萄牙语(欧洲)自由说语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 2.88小时 | Add Dataset to Quote | POR_EUR_ASR001_CN | Appen China | 自由说 | 葡萄牙语(欧洲) | 葡萄牙 | 低背景噪音(家庭/办公室) | 8 | NA | NA | 16 | wav | 葡萄牙语(欧洲)自由说语音数据库 | |||
Dataset 文本 | 葡萄牙语(巴西)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 102,000个单词 | Add Dataset to Quote | por_BRA_PHON | Appen Global | 发音词典 | 葡萄牙语 | 巴西 | N/A | N/A | N/A | N/A | 102 000 | N/A | text | 葡萄牙语(巴西)发音词典 | ||
Dataset 音频 | 葡萄牙语(巴西)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 33小时 | Add Dataset to Quote | PTB_ASR002 | Appen Global | 对话录音 | 葡萄牙语 | 巴西 | 低背景噪音 | 200 | 2 | 可根据要求提供 | 11 287 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 |
葡萄牙语(巴西)对话式的电话录音语料库 | |
Dataset 文本 | 葡萄牙语(巴西)词性词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 100,000个单词 | Add Dataset to Quote | por_BRA_POS | Appen Global | 词性词典 | 葡萄牙语 | 巴西 | N/A | N/A | N/A | N/A | 100 000 | N/A | text | 葡萄牙语(巴西)词性词典 | ||
Dataset 音频 | 葡萄牙语(巴西)麦克风录音数据库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 26小时 | Add Dataset to Quote | PTB_ASR001 | Global Phone | 有定稿的录音 | 葡萄牙语 | 巴西 | 低背景噪音(家庭/办公室) | 102 | 1 | 10 417 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 |
葡萄牙语(巴西)麦克风录音数据库 | |
Dataset 文本 | 葡萄牙语(葡萄牙)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 112,000个单词 | Add Dataset to Quote | por_PRT_PHON | Appen Global | 发音词典 | 葡萄牙语 | 葡萄牙 | N/A | N/A | N/A | N/A | 112 000 | N/A | text | 葡萄牙语(葡萄牙)发音词典 | ||
Dataset 音频 | 葡萄牙语(葡萄牙)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 36小时 | Add Dataset to Quote | PTP_ASR001 | Appen Global | 对话录音 | 葡萄牙语 | 葡萄牙 | 低背景噪音 | 200 | 2 | 可根据要求提供 | 16 339 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一 |
葡萄牙语(葡萄牙)对话式的电话录音语料库 | |
Dataset 文本 | 葡萄牙语(葡萄牙)词性词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 100,000个单词 | Add Dataset to Quote | por_PRT_POS | Appen Global | 词性词典 | 葡萄牙语 | 葡萄牙 | N/A | N/A | N/A | N/A | 100 000 | N/A | text | 葡萄牙语(葡萄牙)词性词典 | ||
Dataset 文本 | 蒙古语(蒙古)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 30,000个单词 | Add Dataset to Quote | mon_MNG_PHON | Appen Global | 发音词典 | 蒙古语 | 蒙古 | N/A | N/A | N/A | N/A | 30 000 | N/A | text | 蒙古语(蒙古)发音词典 | ||
Dataset 文本 | 西班牙文(哥伦比亚)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 15,000个单词 | Add Dataset to Quote | spa_COL_PHON | Appen Global | 发音词典 | 西班牙语 | 哥伦比亚 | N/A | N/A | N/A | N/A | 15 000 | N/A | text | 西班牙文(哥伦比亚)发音词典 | ||
Dataset 文本 | 西班牙文(委内瑞拉)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 15,000个单词 | Add Dataset to Quote | spa_VEN_PHON | Appen Global | 发音词典 | 西班牙语 | 委内瑞拉 | N/A | N/A | N/A | N/A | 15 000 | N/A | text | 西班牙文(委内瑞拉)发音词典 | ||
Dataset 文本 | 西班牙文(智利)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 15,000个单词 | Add Dataset to Quote | spa_CHL_PHON | Appen Global | 发音词典 | 西班牙语 | 智利 | N/A | N/A | N/A | N/A | 15 000 | N/A | text | 西班牙文(智利)发音词典 | ||
Dataset 文本 | 西班牙文(西班牙)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 100,000个单词 | Add Dataset to Quote | spa_ESP_PHON | Appen Global | 发音词典 | 西班牙语 | 西班牙 | N/A | N/A | N/A | N/A | 100 000 | N/A | text | 西班牙文(西班牙)发音词典 | ||
Dataset 音频 | 西班牙文(西班牙)有定稿的智能手机录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 移动电话 | Unit: 540小时 | Add Dataset to Quote | ESP_ASR002_CN | Appen China | 有定稿的录音 | 西班牙语 | 西班牙 | 低背景噪音(家庭/办公室) | 347 | 1 | 258 395 | 134 939 | 16 | wav | 数据集已完全转录 | 西班牙文(西班牙)有定稿的智能手机录音语料库 | |
Dataset 音频 | 西班牙文(西班牙)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 39小时 | Add Dataset to Quote | ESP_ASR001 | Appen Global | 有定稿的录音 | 西班牙语 | 西班牙 | 混合 | 200 | 4 | 40 000 | 6 367 | 22 | alaw | 完全转录为SpeechDAT类型 数据集附带一个包含所有转录词的发音词典 每个发音人录制200个语料,语料包括100个命令和特定指令,100个语音丰富的句子 |
西班牙文(西班牙)有定稿的麦克风录音语料库 | |
Dataset 音频 | 西班牙文(西班牙)有定稿的麦克风录音语料库 | Common Use Cases: TTS | Recording Device: 麦克风 | Unit: 1 hour | Add Dataset to Quote | ESP_TTS001 | Appen Global | 有定稿的录音 | 西班牙语 | 西班牙 | 低背景噪音(录音棚) | 1 | 1 | 1 787 | 3 614 | 22 | alaw | 数据集随附一个发音词典,其中包含该数据集中所说的所有单词 每个演讲者提供1787条语料,包括语音丰富的句子 |
西班牙文(西班牙)有定稿的麦克风录音语料库 | |
Dataset 音频 | 西班牙文(西班牙)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 46小时 | Add Dataset to Quote | Speecon Spanish Database | Nuance | 有定稿的录音 | 西班牙语 | 西班牙 | 混合(办公室/娱乐场所/车内/公共场所) | 600(550个成年语料提供者及50个儿童语料提供者) | 4 | 170 000 | 可根据要求提供 | 16 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料 |
西班牙文(西班牙)有定稿的麦克风录音语料库 | |
Dataset 音频 | 西班牙语自由说语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 2小时 | Add Dataset to Quote | ESP_ASR002_CN | Appen China | 自由说 | 西班牙语 | 西班牙 | 低背景噪音(家庭/办公室) | N/A | NA | NA | 16 | wav | 西班牙语自由说语音数据库 | |||
Dataset 音频 | 西班牙语(拉丁美洲-智利和哥伦比亚)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 22小时 | Add Dataset to Quote | ESL_ASR002 | Appen Global | 对话录音 | 西班牙语 | 智利-哥伦比亚 | 混合 | 84 | 2 | 可根据要求提供 | 可根据要求提供 | 8 | wav | 数据集已完全转录并加了时间戳 银行和电信领域的呼叫中心风格的对话(由64个客户和14个代理商提供的),主要使用移动电话 |
西班牙语(拉丁美洲-智利和哥伦比亚)对话式的电话录音语料库 | |
Dataset 音频 | 西班牙语(拉丁美洲)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 17小时 | Add Dataset to Quote | ESL_ASR001 | Global Phone | 有定稿的录音 | 西班牙语 | 哥斯达黎加 | 低背景噪音(家庭/办公室) | 100 | 1 | 6 898 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 |
西班牙语(拉丁美洲)有定稿的麦克风录音语料库 | |
Dataset 文本 | 西班牙语(秘鲁)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 15,000个单词 | Add Dataset to Quote | spa_PER_PHON | Appen Global | 发音词典 | 西班牙语 | 秘鲁 | N/A | N/A | N/A | N/A | 15 000 | N/A | text | 西班牙语(秘鲁)发音词典 | ||
Dataset 文本 | 西班牙语(美国)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 90,000个单词 | Add Dataset to Quote | spa_USA_PHON | Appen Global | 发音词典 | 西班牙语 | 美国 | N/A | N/A | N/A | N/A | 90 000 | N/A | text | 西班牙语(美国)发音词典 | ||
Dataset 文本 | 西班牙语(阿根廷)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 15,000个单词 | Add Dataset to Quote | spa_ARG_PHON | Appen Global | 发音词典 | 西班牙语 | 阿根廷 | N/A | N/A | N/A | N/A | 15 000 | N/A | text | 西班牙语(阿根廷)发音词典 | ||
Dataset 音频 | 豪萨语有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 20小时 | Add Dataset to Quote | HAU_ASR001 | Global Phone | 有定稿的录音 | 豪萨语 | 多国 | 低背景噪音(家庭/办公室) | 103 | 1 | 7 895 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 |
豪萨语有定稿的麦克风录音语料库 | |
Dataset 文本 | 豪萨(尼日利亚)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 11,000个单词 | Add Dataset to Quote | hau_NGA_PHON | Appen Global | 发音词典 | 豪萨语 | 奈及利亚 | N/A | N/A | N/A | N/A | 11 000 | N/A | text | 豪萨(尼日利亚)发音词典 | ||
Dataset 音频 | 豪萨(尼日利亚)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话 | Unit: 33小时 | Add Dataset to Quote | HAU_ASR002 | Appen Global | 对话录音 | 豪萨语 | 奈及利亚 | 低背景噪音 | 200 | 2 | 可根据要求提供 | 7 949 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一 |
豪萨(尼日利亚)对话式的电话录音语料库 | |
Dataset 音频 | 越南语自由说语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 2.61小时 | Add Dataset to Quote | VIE_ASR001_CN | Appen China | 自由说 | 越南语 | 越南 | 低背景噪音(家庭/办公室) | 7 | NA | NA | 16 | wav | 越南语自由说语音数据库 | |||
Dataset 文本 | 越南(Vietnam)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 8,000个单词 | Add Dataset to Quote | vie_VNM_PHON | Appen Global | 发音词典 | 越南语 | 越南 | N/A | N/A | N/A | N/A | 8 000 | N/A | text | 越南(Vietnam)发音词典 | ||
Dataset 音频 | 越南(Vietnam)麦克风录音数据库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 47小时 | Add Dataset to Quote | VIE_ASR001 | Global Phone | 有定稿的录音 | 越南语 | 越南 | 低背景噪音(家庭/办公室) | 129 | 1 | 18 842 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 |
越南(Vietnam)麦克风录音数据库 | |
Dataset 视频 | 身体移动视频库 | Common Use Cases: 健身应用, 行为识别, 手势识别 | Recording Device: 移动电话 | Unit: 2,000 个视频 | Add Dataset to Quote | VED_HUMAN_BODY_CN | Appen China | 人体 | N/A | 中国 | 不同背景及光线 | 1000 | NA | NA | NA | NA | mp4 | 每个视频片段长约10至20秒 | 身体移动视频库 | |
Dataset 文本 | 达里语(阿富汗)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 30,000个单词 | Add Dataset to Quote | prs_AFG_PHON | Appen Global | 发音词典 | 达里语 | 阿富汗 | N/A | N/A | N/A | N/A | 30 000 | N/A | text | 达里语(阿富汗)发音词典 | ||
Dataset 音频 | 达里语(阿富汗)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 40小时 | Add Dataset to Quote | DAR_ASR001 | Appen Global | 对话录音 | 达里语 | 阿富汗 | 低背景噪音 | 500 | 2 | 可根据要求提供 | 11 168 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集主要是语音,不包括音乐或广告 |
达里语(阿富汗)对话式的电话录音语料库 | |
Dataset 音频 | 达里语(阿富汗)广播录音数据库 | Common Use Cases: ASR, 自动字幕, 关键字检索 | Recording Device: 麦克风 | Unit: 51小时 | Add Dataset to Quote | DAR_BRC001 | Appen Global | 广播录音 | 达里语 | 阿富汗 | 低背景噪音(录音棚) | N/A | 1 | 可根据要求提供 | 可根据要求提供 | N/A | wav | 数据集已完全转录并加上时间戳 数据集主要是语音,不包括音乐或广告 数据类型包括:脱口秀,访谈,新闻广播(不包括主持人阅读的新闻) |
达里语(阿富汗)广播录音数据库 | |
Dataset 音频 | 长沙语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 2.18小时 | Add Dataset to Quote | CHANGSHA_ASR001_CN | Appen China | 语料朗读 | 长沙 | 中国 | 低背景噪音(家庭/办公室) | 10 | NA | NA | 16 | wav | 长沙语音数据库 | |||
Dataset 文本 | 阿姆哈拉语(埃塞俄比亚)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 45,000个单词 | Add Dataset to Quote | amh_ETH_PHON | Appen Global | 发音词典 | 阿姆哈拉语 | 埃塞俄比亚 | N/A | N/A | N/A | N/A | 45 000 | N/A | text | 阿姆哈拉语(埃塞俄比亚)发音词典 | ||
Dataset 文本 | 阿尔巴尼亚语(阿尔巴尼亚)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 12,000个单词 | Add Dataset to Quote | sqi_ALB_PHON | Appen Global | 发音词典 | 阿尔巴尼亚语 | 阿尔巴尼亚 | N/A | N/A | N/A | N/A | 12 000 | N/A | text | 阿尔巴尼亚语(阿尔巴尼亚)发音词典 | ||
Dataset 文本 | 阿拉伯语NER语料库 | Common Use Cases: NER, 内容分类, 搜索引擎 | Recording Device: N/A | Unit: 20,774个句子 | Add Dataset to Quote | ARB_NER001 | Appen Global | NER | 阿拉伯语 | N/A | N/A | N/A | N/A | 20 774 | 可根据要求提供 | N/A | text | 阿拉伯语NER语料库 | ||
Dataset 文本 | 阿拉伯语发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 40,000个单词 | Add Dataset to Quote | arb_N/A_PHON | Appen Global | 发音词典 | 阿拉伯语 | N/A | N/A | N/A | N/A | N/A | 40 000 | N/A | text | 阿拉伯语发音词典 | ||
Dataset 文本 | 阿拉伯语(伊拉克)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 15,000个单词 | Add Dataset to Quote | ara_IRQ_PHON | Appen Global | 发音词典 | 阿拉伯语 | 伊拉克 | N/A | N/A | N/A | N/A | 15 000 | N/A | text | 人名 | 阿拉伯语(伊拉克)发音词典 | |
Dataset 文本 | 阿拉伯语(伊拉克)词性词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 13,000个单词 | Add Dataset to Quote | ara_IRQ_POS | Appen Global | 词性词典 | 阿拉伯语 | 伊拉克 | N/A | N/A | N/A | N/A | 13 000 | N/A | text | 阿拉伯语(伊拉克)词性词典 | ||
Dataset 文本 | 阿拉伯语(利比亚)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 48,000个单词 | Add Dataset to Quote | ara_LBY_PHON | Appen Global | 发音词典 | 阿拉伯语 | 利比亚 | N/A | N/A | N/A | N/A | 48 000 | N/A | text | 阿拉伯语(利比亚)发音词典 | ||
Dataset 文本 | 阿拉伯语(埃及)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 40,000个单词 | Add Dataset to Quote | ara_EGY_PHON | Appen Global | 发音词典 | 阿拉伯语 | 埃及 | N/A | N/A | N/A | N/A | 40 000 | N/A | text | 阿拉伯语(埃及)发音词典 | ||
Dataset 音频 | 阿拉伯语(埃及)有定稿的智能手机录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 移动电话 | Unit: 352小时 | Add Dataset to Quote | ARE_ASR001_CN | Appen China | 有定稿的录音 | 阿拉伯语 | 埃及 | 低背景噪音(家庭/办公室) | 627 | 1 | 128 908 | 207 576 | 16 | wav | 数据集已完全转录 | 阿拉伯语(埃及)有定稿的智能手机录音语料库 | |
Dataset 文本 | 阿拉伯语(摩洛哥)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 60,000个单词 | Add Dataset to Quote | ara_MAR_PHON | Appen Global | 发音词典 | 阿拉伯语 | 摩洛哥 | N/A | N/A | N/A | N/A | 60 000 | N/A | text | 阿拉伯语(摩洛哥)发音词典 | ||
Dataset 文本 | 阿拉伯语(摩洛哥)对话式的电话录音翻译 | Common Use Cases: MT, 聊天机器人, 对话式AI | Recording Device: N/A | Unit: 80,544 个发音 | Add Dataset to Quote | ARY_MT001 | Appen Global | 对话翻译 | 阿拉伯语 | 摩洛哥 | N/A | 180 | N/A | 80 430 | 23 844 | N/A | text | 相应的音频,转录文本,完全可逆的罗马化的转录文本及发音词典见数据集ARY_ASR001和ARY_ASRMT001 | 阿拉伯语(摩洛哥)对话式的电话录音翻译 | |
Dataset 音频 | 阿拉伯语(摩洛哥)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 33小时 | Add Dataset to Quote | ARY_ASR001 | Appen Global | 对话录音 | 阿拉伯语 | 摩洛哥 | 低背景噪音 | 180 | 2 | 80 544 | 23 836 | 8 | alaw | 每个发音人参与了1至4个对话,每个发音人由一个记录在人口统计文件中的唯一的4位数的演讲者ID来识别 此转录文件有原始版本和完全可逆的罗马化版本,并附带发音词典 产品转录的英文翻译见数据集ARY_MT001和ARY_ASRMT001 |
阿拉伯语(摩洛哥)对话式的电话录音语料库 | |
Dataset 音频 | 阿拉伯语(沙特阿拉伯)有定稿的智能手机录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 移动电话 | Unit: 322小时 | Add Dataset to Quote | ARS_ASR001_CN | Appen China | 有定稿的录音 | 阿拉伯语 | 沙特阿拉伯 | 低背景噪音(家庭/办公室) | 227 | 1 | 104 574 | 156 282 | 16 | wav | 数据集已完全转录 | 阿拉伯语(沙特阿拉伯)有定稿的智能手机录音语料库 | |
Dataset 音频 | 阿拉伯语(现代标准阿拉伯语)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 12小时 | Add Dataset to Quote | MSA_ASR001 | Global Phone | 有定稿的录音 | 阿拉伯语 | 突尼斯 | 低背景噪音(家庭/办公室) | 78 | 1 | 4 908 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 |
阿拉伯语(现代标准阿拉伯语)有定稿的麦克风录音语料库 | |
Dataset 文本 | 阿拉伯语(苏丹)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 17,000个单词 | Add Dataset to Quote | ara_SDN_PHON | Appen Global | 发音词典 | 阿拉伯语 | 苏丹 | N/A | N/A | N/A | N/A | 17 000 | N/A | text | 阿拉伯语(苏丹)发音词典 | ||
Dataset 音频 | 阿拉伯语(阿尔及利亚东部)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 29小时 | Add Dataset to Quote | EAR_ASR001 | Appen Global | 对话录音 | 阿拉伯语 | 阿尔及利亚 | 低背景噪音(家庭/办公室) | 496 | 2 | 可根据要求提供 | 11 327 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 在大多数通话中,对话双方(呼入者和呼出者)的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话内容被收集并转录了 |
阿拉伯语(阿尔及利亚东部)对话式的电话录音语料库 | |
Dataset 文本 | 阿拉伯语(阿尔及利亚)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 11,000个单词 | Add Dataset to Quote | ara_DZA_PHON | Appen Global | 发音词典 | 阿拉伯语 | 阿尔及利亚 | N/A | N/A | N/A | N/A | 11 000 | N/A | text | 阿拉伯语(阿尔及利亚)发音词典 | ||
Dataset 音频 | 阿拉伯语(阿拉伯联合酋长国/沙特阿拉伯)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 86小时 | Add Dataset to Quote | CGA_ASR001 | Appen Global | 有定稿的录音 | 阿拉伯语 | 阿拉伯联合酋长国-沙特阿拉伯 | 低背景噪音(家庭/办公室) | 150 | 4 | 42 000 | 19 245 | 16 | alaw | 语音文件内容已完全转录,精确到单词 所有录音均使用了衍生于SpeechDATmodel的方法进行标记 所有转录文件已被加注元音标识 每个发音人录制280个语料,语料包括15个人的名字和姓氏(共计30个),10个分开朗读的数字(0-10),随机生成的数字序列(每个序列包含8个数字),200个语音平衡的句子,30个语音平衡单词串(每个单词串包含10个单词) |
阿拉伯语(阿拉伯联合酋长国/沙特阿拉伯)有定稿的麦克风录音语料库 | |
Dataset 文本 | 阿拉伯语(阿拉伯联合酋长国)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 75,000个单词 | Add Dataset to Quote | ara_ARE_PHON | Appen Global | 发音词典 | 阿拉伯语 | 阿拉伯联合酋长国 | N/A | N/A | N/A | N/A | 75 000 | N/A | text | 阿拉伯语(阿拉伯联合酋长国)发音词典 | ||
Dataset 音频 | 阿拉伯语(阿拉伯联合酋长国)有定稿的智能手机录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 移动电话 | Unit: 170小时 | Add Dataset to Quote | ARU_ASR001_CN | Appen China | 有定稿的录音 | 阿拉伯语 | 阿拉伯联合酋长国 | 低背景噪音(家庭/办公室) | 133 | 1 | 42 352 | 85 775 | 16 | wav | 数据集已完全转录 | 阿拉伯语(阿拉伯联合酋长国)有定稿的智能手机录音语料库 | |
Dataset 音频 | 阿拉伯语(阿拉伯联合酋长国)有定稿的电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 移动电话和固定电话 | Unit: 48小时 | Add Dataset to Quote | OrienTel United Arab Emirates MCA (Modern Colloquial Arabic) | Nuance | 有定稿的录音 | 阿拉伯语 | 阿拉伯联合酋长国 | 低背景噪音 | 880 | 1 | 43 000 | 可根据要求提供 | 8 | alaw | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个发音人录制49个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令 |
阿拉伯语(阿拉伯联合酋长国)有定稿的电话录音语料库 | |
Dataset 音频 | 阿拉伯语(阿拉伯联合酋长国)有定稿的电话录音语料库 | Common Use Cases: ASR, 呼叫中心, 虚拟助手 | Recording Device: 移动电话和固定电话 | Unit: 31小时 | Add Dataset to Quote | OrienTel United Arab Emirates MSA (Modern Standard Arabic) | Nuance | 有定稿的录音 | 阿拉伯语 | 阿拉伯联合酋长国 | 低背景噪音 | 500 | 1 | 24 500 | 可根据要求提供 | 8 | alaw | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个发音人录制49个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令 |
阿拉伯语(阿拉伯联合酋长国)有定稿的电话录音语料库 | |
Dataset 文本 | 阿萨姆语(印度)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 40,000个单词 | Add Dataset to Quote | asm_IND_PHON | Appen Global | 发音词典 | 阿萨姆语 | 印度 | N/A | N/A | N/A | N/A | 40 000 | N/A | text | 阿萨姆语(印度)发音词典 | ||
Dataset 文本 | 韩文(韩国)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 100,000个单词 | Add Dataset to Quote | kor_KOR_PHON | Appen Global | 发音词典 | 韩语 | 韩国 | N/A | N/A | N/A | N/A | 100 000 | N/A | text | 韩文(韩国)发音词典 | ||
Dataset 音频 | 韩文(韩国)有定稿的麦克风录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 麦克风 | Unit: 20小时 | Add Dataset to Quote | KOR_ASR001 | Global Phone | 有定稿的录音 | 韩语 | 韩国 | 低背景噪音(家庭/办公室) | 100 | 1 | 8 107 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 |
韩文(韩国)有定稿的麦克风录音语料库 | |
Dataset 文本 | 韩文(韩国)词性词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 100,000个单词 | Add Dataset to Quote | kor_KOR_POS | Appen Global | 词性词典 | 韩语 | 韩国 | N/A | N/A | N/A | N/A | 100 000 | N/A | text | 韩文(韩国)词性词典 | ||
Dataset 文本 | 韩语NER语料库 | Common Use Cases: NER, 内容分类, 搜索引擎 | Recording Device: N/A | Unit: 25,830个句子 | Add Dataset to Quote | KOR_NER001 | Appen Global | NER | 韩语 | 韩国 | N/A | N/A | N/A | 25 830 | 可根据要求提供 | N/A | text | 韩语NER语料库 | ||
Dataset 音频 | 韩语自由说语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 3.35小时 | Add Dataset to Quote | KOR_ASR001_CN | Appen China | 自由说 | 韩语 | 韩国 | 低背景噪音(家庭/办公室) | 4 | NA | NA | 16 | wav | 韩语自由说语音数据库 | |||
Dataset 文本 | 马拉地语(印度)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 30,000个单词 | Add Dataset to Quote | mar_IND_PHON | Appen Global | 发音词典 | 马拉地语 | 印度 | N/A | N/A | N/A | N/A | 30 000 | N/A | text | 马拉地语(印度)发音词典 | ||
Dataset 音频 | 马拉地语(印度)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 15小时 | Add Dataset to Quote | MAR_ASR001 | Appen Global | 对话录音 | 马拉地语 | 印度 | 混合 | 180 | 2 | 可根据要求提供 | 11 908 | 8 | alaw | 数据集中大约29%的会话被转录并加盖了时间戳,可以提供完整的转录文本 数据集附带一个包含所有转录词的发音词典 |
马拉地语(印度)对话式的电话录音语料库 | |
Dataset 音频 | 马拉地语(印度)对话式的电话录音语料库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 移动电话和固定电话 | Unit: 52小时 | Add Dataset to Quote | MAR_ASR001A | Appen Global | 对话录音 | 马拉地语 | 印度 | 混合 | 1 000 | 2 | 可根据要求提供 | 11 908 | 8 | alaw | 数据集的部分会话被转录并加盖了时间戳,可以提供完整的转录文本 数据集附带一个包含所有转录词的发音词典 |
马拉地语(印度)对话式的电话录音语料库 | |
Dataset 文本 | 马拉雅拉姆语(印度)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 4,000个单词 | Add Dataset to Quote | mal_IND_PHON | Appen Global | 发音词典 | 玛拉雅拉姆语 | 印度 | N/A | N/A | N/A | N/A | 4 000 | N/A | text | 马拉雅拉姆语(印度)发音词典 | ||
Dataset 文本 | 马来西亚(马来西亚)发音词典 | Common Use Cases: ASR, TTS, 语言建模 | Recording Device: N/A | Unit: 10,000个单词 | Add Dataset to Quote | msa_MYS_PHON | Appen Global | 发音词典 | 马来语 | 马来西亚 | N/A | N/A | N/A | N/A | 10 000 | N/A | text | 马来西亚(马来西亚)发音词典 | ||
Dataset 音频 | 马来语自由说语音数据库 | Common Use Cases: ASR, 对话式AI, 语音分析 | Recording Device: 手机麦克风 | Unit: 3.01小时 | Add Dataset to Quote | MAL_ASR001_CN | Appen China | 自由说 | 马来语 | 马来西亚 | 低背景噪音(家庭/办公室) | 9 | NA | NA | 16 | wav | 马来语自由说语音数据库 | |||
Dataset 音频 | 高棉语(柬埔寨)有定稿的智能手机录音语料库 | Common Use Cases: ASR, 虚拟助手, 聊天机器人 | Recording Device: 移动电话 | Unit: 90小时 | Add Dataset to Quote | KHM_ASR001_CN | Appen China | 有定稿的录音 | 高棉语 | 柬埔寨 | 低背景噪音(家庭/办公室) | 94 | 1 | 24 618 | 52 157 | 16 | wav | 数据集已完全转录 | 高棉语(柬埔寨)有定稿的智能手机录音语料库 | |
Dataset 图像 | 黑人(东非)脸部照片库 | Common Use Cases: 面部识别 | Recording Device: 照相机 | Unit: 13,500张图片 | Add Dataset to Quote | IMG_FACE_KEN_CN | Appen China | 人脸 | N/A | 肯尼亚 | 不同背景及光线 | 100 | NA | NA | NA | NA | jpg | 黑人(东非)脸部照片库 |