
数据产品目录
澳鹏提供种类丰富的成品数据库,我们的数据产品目录包括250多个可授权的数据集,涵盖80多种语言及方言,适用于各种常见的AI应用场景,例如:TTS、ASR等(参考下面目录表的筛选功能查看更多应用场景)。我们也在不断更新数据库中,2020年将推出30多个全新数据集,联系我们为您一同构建适用于您的项目的数据产品。

快速部署
直接获取数据库产品快速为您部署AI与机器学习项目

低成本高效益
直接获取经授权的成品数据库比您定制数据采集服务更具成本效益。

专家团队
您将拥有一支在数据采集领域耕耘20多年的专家团队支持

支持所有数据类型
图像,视频,语音,音频,文本

大规模
提供大量、高品质的数据高效地训练您的机器模型

高质量
提高您的机器模型质量并减少数据偏见
数据集名称 | 产品类型 | 常见应用场景 | 录音设备 | 单元 |
---|
数据库名称 | 产品类型 | 常见使用案例 | 录音设备 | 单元 | ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
88 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 5小时 | 添加到咨询列表 | SOR_ASR001 | Appen Global | 对话录音 | 库尔德语 | 伊朗 | 低背景噪音 | 170 | 2 | 可根据要求提供 | 7,924 | 8 | alaw或wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 对于很大比例的电话录音,只有一半的对话被收集和转录 | K | |
163 | 文本 | ASR, TTS, 语言建模 | N/A | 107,000个单词 | 添加到咨询列表 | dan_DNK_PHON | Appen Global | 发音词典 | 丹麦语 | 丹麦 | N/A | N/A | N/A | N/A | 1,07,000 | N/A | text | D | ||
90 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 53小时 | 添加到咨询列表 | Speecon Danish | Nuance | 有定稿的录音 | 丹麦语 | 丹麦 | 混合(办公室/娱乐场所/车内/公共场所) | 600(550个成年语料提供者及50个儿童语料提供者) | 4 | 1,70,000 | 可根据要求提供 | 16 | alaw | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个成年语料提供者录制290个语料,每个儿童语料提供者录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童语料提供者还需要提供关于玩具,手机的指令以及通用指令,成年语料提供者还需要提供应用词汇,以及自由发挥的语料 | D | |
164 | 文本 | ASR, TTS, 语言建模 | N/A | 100,000个单词 | 添加到咨询列表 | dan_DNK_POS | Appen Global | 词性词典 | 丹麦语 | 丹麦 | N/A | N/A | N/A | N/A | 1,00,000 | N/A | text | D | ||
252 | 文本 | ASR, TTS, 语言建模 | N/A | 5,000个单词 | 添加到咨询列表 | ukr_UKR_PHON | Appen Global | 发音词典 | 乌克兰语 | 乌克兰 | N/A | N/A | N/A | N/A | 5,000 | N/A | text | W | ||
137 | 文本 | NER, 内容分类, 搜索引擎 | N/A | 20,634个句子 | 添加到咨询列表 | URD_NER001 | Appen Global | NER | 乌尔都语 | 巴基斯坦 | N/A | N/A | N/A | 20,634 | 可根据要求提供 | N/A | text | W | ||
105 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 47小时 | 添加到咨询列表 | URD_ASR001 | Appen Global | 对话录音 | 乌尔都语 | 印度-巴基斯坦 | 混合 | 1,000 | 2 | 可根据要求提供 | 10,871 | 8 | wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 | W | |
253 | 文本 | ASR, TTS, 语言建模 | N/A | 40,000个单词 | 添加到咨询列表 | urd_PAK_PHON | Appen Global | 发音词典 | 乌尔都语 | 巴基斯坦 | N/A | N/A | N/A | N/A | 40,000 | N/A | text | W | ||
254 | 文本 | ASR, TTS, 语言建模 | N/A | 12,000个单词 | 添加到咨询列表 | urd_PAK_POS | Appen Global | 词性词典 | 乌尔都语 | 巴基斯坦 | N/A | N/A | N/A | N/A | 12,000 | N/A | text | W | ||
199 | 文本 | ASR, TTS, 语言建模 | N/A | 30,000个单词 | 添加到咨询列表 | ibo_NGA_PHON | Appen Global | 发音词典 | 伊博语 | 奈及利亚 | N/A | N/A | N/A | N/A | 30,000 | N/A | text | Y | ||
182 | 文本 | ASR, TTS, 语言建模 | N/A | 80,000个单词 | 添加到咨询列表 | pes_IRN_PHON | Appen Global | 发音词典 | 波斯语 | 伊朗 | N/A | N/A | N/A | N/A | 80,000 | N/A | text | Y | ||
183 | 文本 | ASR, TTS, 语言建模 | N/A | 1,400,000个单词 | 添加到咨询列表 | pes_IRN_POS | Appen Global | 词性词典 | 波斯语 | 伊朗 | N/A | N/A | N/A | N/A | 14,00,000 | N/A | text | Y | ||
229 | 文本 | ASR, TTS, 语言建模 | N/A | 115,000个单词 | 添加到咨询列表 | rus_RUS_PHON | Appen Global | 发音词典 | 俄语 | 俄国 | N/A | N/A | N/A | N/A | 1,15,000 | N/A | text | E | ||
82 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 37小时 | 添加到咨询列表 | RUS_ASR001 | Appen Global | 对话录音 | 俄语 | 俄国 | 低背景噪音 | 200 | 2 | 可根据要求提供 | 28,284 | 8 | alaw或wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一 | E | |
84 | 音频 | ASR, 呼叫中心, 虚拟助手 | 仅固定电话 | 180小时 | 添加到咨询列表 | Russian SpeechDat(E) Database | Nuance | 有定稿的录音 | 俄语 | 俄国 | 低背景噪音 | 2,500 | 1 | 1,12,000 | 可根据要求提供 | 8 | alaw | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个语料提供者录制45个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 | E | |
83 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 31小时 | 添加到咨询列表 | RUS_ASR002 | Global Phone | 有定稿的录音 | 俄语 | 俄国 | 低背景噪音(家庭/办公室) | 115 | 1 | 12,205 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 | E | |
96 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 46小时 | 添加到咨询列表 | Speecon Russian Database | Nuance | 有定稿的录音 | 俄语 | 俄国 | 混合(办公室/娱乐场所/车内/公共场所) | 600(550个成年语料提供者及50个儿童语料提供者) | 4 | 1,70,000 | 可根据要求提供 | 16 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个成年语料提供者录制290个语料,每个儿童语料提供者录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童语料提供者还需要提供关于玩具,手机的指令以及通用指令,成年语料提供者还需要提供应用词汇,以及自由发挥的语料 | E | |
230 | 文本 | ASR, TTS, 语言建模 | N/A | 100,000个单词 | 添加到咨询列表 | rus_RUS_POS | Appen Global | 词性词典 | 俄语 | 俄国 | N/A | N/A | N/A | N/A | 1,00,000 | N/A | text | E | ||
133 | 文本 | NER, 内容分类, 搜索引擎 | N/A | 29,888个句子 | 添加到咨询列表 | RUS_NER001 | Appen Global | NER | 俄语 | 俄国 | N/A | N/A | N/A | 29,888 | 可根据要求提供 | N/A | text | E | ||
155 | 文本 | ASR, TTS, 语言建模 | N/A | 55,000个单词 | 添加到咨询列表 | bul_BGR_PHON | Appen Global | 发音词典 | 保加利亚语 | 保加利亚 | N/A | N/A | N/A | N/A | 55,000 | N/A | text | B | ||
7 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 38小时 | 添加到咨询列表 | BUL_ASR001 | Appen Global | 对话录音 | 保加利亚语 | 保加利亚 | 低背景噪音(家庭/办公室) | 217 | 2 | 可根据要求提供 | 22,342 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一 | B | |
111 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 22小时 | 添加到咨询列表 | BUL_ASR002 | Global Phone | 有定稿的录音 | 保加利亚语 | 保加利亚 | 低背景噪音(家庭/办公室) | 77 | 1 | 8,674 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 | B | |
161 | 文本 | ASR, TTS, 语言建模 | N/A | 20,000个单词 | 添加到咨询列表 | hrv_HRV_PHON | Appen Global | 发音词典 | 克罗地亚语 | 克罗地亚 | N/A | N/A | N/A | N/A | 20,000 | N/A | text | K | ||
10 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 39小时 | 添加到咨询列表 | CRO_ASR001 | Appen Global | 对话录音 | 克罗地亚语 | 克罗地亚 | 低背景噪音(家庭/办公室) | 200 | 2 | 可根据要求提供 | 23,919 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一 | K | |
116 | 音频 | ASR, 虚拟助手, 聊天机器人 | 移动电话 | 263小时 | 添加到咨询列表 | CRO_ASR003_CN | Appen China | 有定稿的录音 | 克罗地亚语 | 克罗地亚 | 低背景噪音(家庭/办公室) | 243 | 1 | 73,467 | 1,36,140 | 16 | wav | 数据集已完全转录 | K | |
11 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 11小时 | 添加到咨询列表 | CRO_ASR002 | Global Phone | 有定稿的录音 | 克罗地亚语 | 克罗地亚 | 低背景噪音(家庭/办公室) | 94 | 1 | 4,499 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 | K | |
159 | 文本 | ASR, TTS, 语言建模 | N/A | 10,000个单词 | 添加到咨询列表 | cat_ESP_PHON | Appen Global | 发音词典 | 加泰罗尼亚语 | 西班牙 | N/A | N/A | N/A | N/A | 10,000 | N/A | text | J | ||
198 | 文本 | ASR, TTS, 语言建模 | N/A | 500个单词 | 添加到咨询列表 | hun_HUN_PHON | Appen Global | 发音词典 | 匈牙利语 | 匈牙利 | N/A | N/A | N/A | N/A | 500 | N/A | text | X | ||
119 | 音频 | ASR, 虚拟助手, 聊天机器人 | 移动电话 | 286小时 | 添加到咨询列表 | HUN_ASR001_CN | Appen China | 有定稿的录音 | 匈牙利语 | 匈牙利 | 低背景噪音(家庭/办公室) | 254 | 1 | 94,031 | 2,01,921 | 16 | wav | 数据集已完全转录 | X | |
49 | 音频 | ASR, 呼叫中心, 虚拟助手 | 仅固定电话 | 65小时 | 添加到咨询列表 | Hungarian SpeechDat(E) | Nuance | 有定稿的录音 | 匈牙利语 | 匈牙利 | 低背景噪音 | 1,000 | 1 | 48,000 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个语料提供者录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 | X | |
205 | 文本 | ASR, TTS, 语言建模 | N/A | 35,000个单词 | 添加到咨询列表 | kan_IND_PHON | Appen Global | 发音词典 | 坎那达语 | 印度 | N/A | N/A | N/A | N/A | 35,000 | N/A | text | K | ||
58 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 15小时 | 添加到咨询列表 | KAN_ASR001 | Appen Global | 对话录音 | 坎那达语 | 印度 | 混合 | 178 | 2 | 可根据要求提供 | 15,660 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 | K | |
109 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 57小时 | 添加到咨询列表 | KAN_ASR001A | Appen Global | 对话录音 | 坎那达语 | 印度 | 混合 | 1,000 | 2 | 可根据要求提供 | 15,660 | 8 | alaw | 数据集中大约25%的会话被转录并加盖了时间戳,可以提供完整的转录文本 数据库附带一个包含所有转录词的发音词典 | K | |
166 | 文本 | ASR, TTS, 语言建模 | N/A | 20,000个单词 | 添加到咨询列表 | luo_KEN_PHON | Appen Global | 发音词典 | 卢奥语 | 肯尼亚 | N/A | N/A | N/A | N/A | 20,000 | N/A | text | L | ||
197 | 文本 | ASR, TTS, 语言建模 | N/A | 35,000个单词 | 添加到咨询列表 | hin_IND_PHON | Appen Global | 发音词典 | 印地语 | 印度 | N/A | N/A | N/A | N/A | 35,000 | N/A | text | Y | ||
48 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 32小时 | 添加到咨询列表 | HIN_ASR002 | Appen Global | 对话录音 | 印地语 | 印度 | 混合 | 996 | 2 | 可根据要求提供 | 12,266 | 8 | wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 在大多数的通话中,对话双方的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话被收集并转录了 | Y | |
47 | 音频 | ASR, 呼叫中心, 虚拟助手 | 移动电话 | 224小时 | 添加到咨询列表 | HIN_ASR001 | Appen Global | 有定稿的录音 | 印地语 | 印度 | 低背景噪音 | 1,920 | 1 | 96,000 | 9,853 | 8 | alaw | 完全转录为SpeechDAT类型 数据集附带一个包含所有转录词的发音词典[SAMPA] 每个语料提供者录制50个语料,语料包括数字,自然数,个人、地点和企业名称,网址,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 | Y | |
151 | 文本 | ASR, TTS, 语言建模 | N/A | 95,000个单词 | 添加到咨询列表 | ind_IDN_PHON | Appen Global | 发音词典 | 印度尼西亚语 | 印度尼西亚 | N/A | N/A | N/A | N/A | 95,000 | N/A | text | Y | ||
152 | 文本 | ASR, TTS, 语言建模 | N/A | 10,000个单词 | 添加到咨询列表 | ind_IDN_POS | Appen Global | 词性词典 | 印度尼西亚语 | 印度尼西亚 | N/A | N/A | N/A | N/A | 10,000 | N/A | text | Y | ||
4 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 31小时 | 添加到咨询列表 | BAH_ASR001 | Appen Global | 对话录音 | 印度尼西亚语 | 印度尼西亚 | 低背景噪音 | 1,002 | 2 | 可根据要求提供 | 11,480 | 8 | wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 对于很大比例的电话录音,只有一半的对话被收集和转录 | Y | |
256 | 文本 | ASR, TTS, 语言建模 | N/A | 10,000个单词 | 添加到咨询列表 | wuu_CHN_PHON | Appen Global | 发音词典 | 吴语 | 中国 | N/A | N/A | N/A | N/A | 10,000 | N/A | text | W | ||
206 | 文本 | ASR, TTS, 语言建模 | N/A | 30,000个单词 | 添加到咨询列表 | kaz_KAZ_PHON | Appen Global | 发音词典 | 哈萨克语 | 哈萨克斯坦 | N/A | N/A | N/A | N/A | 30,000 | N/A | text | H | ||
250 | 文本 | ASR, TTS, 语言建模 | N/A | 255,000个单词 | 添加到咨询列表 | tur_TUR_PHON | Appen Global | 发音词典 | 土耳其语 | 土耳其 | N/A | N/A | N/A | N/A | 2,55,000 | N/A | text | T | ||
102 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 41小时 | 添加到咨询列表 | TUR_ASR001 | Appen Global | 对话录音 | 土耳其语 | 土耳其 | 低背景噪音 | 200 | 2 | 可根据要求提供 | 32,386 | 8 | alaw或wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一 | T | |
121 | 音频 | ASR, 虚拟助手, 聊天机器人 | 移动电话 | 739小时 | 添加到咨询列表 | TUR_ASR003_CN | Appen China | 有定稿的录音 | 土耳其语 | 土耳其 | 低背景噪音(家庭/办公室) | 664 | 1 | 1,85,706 | 2,15,135 | 16 | wav | 数据集已完全转录 | T | |
69 | 音频 | ASR, 呼叫中心, 虚拟助手 | 移动电话和固定电话 | 118小时 | 添加到咨询列表 | OrienTel Turkish Database | Nuance | 有定稿的录音 | 土耳其语 | 土耳其 | 低背景噪音 | 1,700 | 1 | 76,500 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个语料提供者录制45个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 | T | |
251 | 文本 | ASR, TTS, 语言建模 | N/A | 257,000个单词 | 添加到咨询列表 | tur_TUR_POS | Appen Global | 词性词典 | 土耳其语 | 土耳其 | N/A | N/A | N/A | N/A | 2,57,000 | N/A | text | T | ||
103 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 17小时 | 添加到咨询列表 | TUR_ASR002 | Global Phone | 有定稿的录音 | 土耳其语 | 土耳其 | 低背景噪音(家庭/办公室) | 100 | 1 | 6,950 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 | T | |
245 | 文本 | ASR, TTS, 语言建模 | N/A | 30,000个单词 | 添加到咨询列表 | tgl_PHL_PHON | Appen Global | 发音词典 | 塔加拉族语 | 菲律宾 | N/A | N/A | N/A | N/A | 30,000 | N/A | text | T | ||
231 | 文本 | ASR, TTS, 语言建模 | N/A | 15,000个单词 | 添加到咨询列表 | srp_SRB_PHON | Appen Global | 发音词典 | 塞尔维亚语 | 塞尔维亚 | N/A | N/A | N/A | N/A | 15,000 | N/A | text | S | ||
244 | 文本 | ASR, TTS, 语言建模 | N/A | 22,000个单词 | 添加到咨询列表 | syl_BGD -IND_PHON | Appen Global | 发音词典 | 塞海蒂语 | 孟加拉国-印度 | N/A | N/A | N/A | N/A | 22,000 | N/A | text | S | ||
220 | 文本 | ASR, TTS, 语言建模 | N/A | 15,000个单词 | 添加到咨询列表 | ori_IND_PHON | Appen Global | 发音词典 | 奥里雅语 | 印度 | N/A | N/A | N/A | N/A | 15,000 | N/A | text | A | ||
124 | 音频 | 婴儿监控器, 安全及其他消费者应用程序 | 移动电话 | 3小时 | 添加到咨询列表 | CRY_ASR001 | Appen China | 人声 | N/A | 中国 | 低背景噪音(家庭/办公室) | 100 | 1 | NA | NA | 16 | wav | 0到3岁婴儿的哭声,每个录音持续2分钟左右 | Z | |
154 | 文本 | ASR, TTS, 语言建模 | N/A | 29,000个单词 | 添加到咨询列表 | ben_IND_PHON | Appen Global | 发音词典 | 孟加拉语 | 印度 | N/A | N/A | N/A | N/A | 29,000 | N/A | text | M | ||
6 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 47小时 | 添加到咨询列表 | BEN_ASR001 | Appen Global | 对话录音 | 孟加拉语 | 孟加拉国 | 混合(车内/路边/家庭/办公室) | 1,000 | 2 | 可根据要求提供 | 17,922 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 | M | |
160 | 文本 | ASR, TTS, 语言建模 | N/A | 20,000个单词 | 添加到咨询列表 | ceb_PHL_PHON | Appen Global | 发音词典 | 宿雾语 | 菲律宾 | N/A | N/A | N/A | N/A | 20,000 | N/A | text | S | ||
153 | 文本 | ASR, TTS, 语言建模 | N/A | 10,000个单词 | 添加到咨询列表 | eus_ESP_PHON | Appen Global | 发音词典 | 巴斯克语 | 西班牙 | N/A | N/A | N/A | N/A | 10,000 | N/A | text | B | ||
196 | 文本 | ASR, TTS, 语言建模 | N/A | 31,000个单词 | 添加到咨询列表 | heb_ISR_PHON | Appen Global | 发音词典 | 希伯来语 | 以色列 | N/A | N/A | N/A | N/A | 31,000 | N/A | text | X | ||
46 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 34小时 | 添加到咨询列表 | HEB_ASR001 | Appen Global | 对话录音 | 希伯来语 | 以色列 | 低背景噪音 | 200 | 2 | 可根据要求提供 | 19,250 | 8 | alaw或wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一 | X | |
191 | 文本 | ASR, TTS, 语言建模 | N/A | 5,000个单词 | 添加到咨询列表 | ell_GRC_PHON | Appen Global | 发音词典 | 希腊语 | 希腊 | N/A | N/A | N/A | N/A | 5,000 | N/A | text | X | ||
118 | 音频 | ASR, 虚拟助手, 聊天机器人 | 移动电话 | 191小时 | 添加到咨询列表 | GRE_ASR001_CN | Appen China | 有定稿的录音 | 希腊语 | 希腊 | 低背景噪音(家庭/办公室) | 287 | 1 | 54,113 | 68,271 | 16 | wav | 数据集已完全转录 | X | |
156 | 文本 | ASR, TTS, 语言建模 | N/A | 37,000个单词 | 添加到咨询列表 | yue_CHN_PHON | Appen Global | 发音词典 | 广东话 (粤语) | 中国 | N/A | N/A | N/A | N/A | 37,000 | N/A | text | 简体 | G | |
157 | 文本 | ASR, TTS, 语言建模 | N/A | 40,000个单词 | 添加到咨询列表 | yue_CHN_PHON | Appen Global | 发音词典 | 广东话 (粤语) | 中国 | N/A | N/A | N/A | N/A | 40,000 | N/A | text | 繁体 | G | |
158 | 文本 | ASR, TTS, 语言建模 | N/A | 10,000个单词 | 添加到咨询列表 | yue_HKG_POS | Appen Global | 词性词典 | 广东话 (粤语) | 中国 | N/A | N/A | N/A | N/A | 10,000 | N/A | text | 繁体 | G | |
209 | 文本 | ASR, TTS, 语言建模 | N/A | 60,000个单词 | 添加到咨询列表 | kur_TUR_PHON | Appen Global | 发音词典 | 库尔德语 | 土耳其 | N/A | N/A | N/A | N/A | 60,000 | N/A | text | K | ||
61 | 音频 | ASR, 呼叫中心, 虚拟助手 | 仅固定电话 | 33小时 | 添加到咨询列表 | Luxembourgish German SpeechDat(II) FDB-500 (FIXED1LG) | Nuance | 有定稿的录音 | 德语 | 卢森堡 | 低背景噪音 | 500 | 1 | 26,500 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个语料提供者录制53个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 | D | |
68 | 音频 | ASR, 呼叫中心, 虚拟助手 | 移动电话和固定电话 | 31小时 | 添加到咨询列表 | OrienTel German Spoken by Turkish | Nuance | 有定稿的录音 | 德语 | 土耳其 | 低背景噪音 | 300 | 1 | 15,600 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个语料提供者录制52个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 | D | |
189 | 文本 | ASR, TTS, 语言建模 | N/A | 146,000个单词 | 添加到咨询列表 | deu_DEU_PHON | Appen Global | 发音词典 | 德语 | 德国 | N/A | N/A | N/A | N/A | 1,46,000 | N/A | text | D | ||
16 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 16小时 | 添加到咨询列表 | DEU_ASR001 | Appen Global | 有定稿的录音 | 德语 | 德国 | 低背景噪音(录音棚) | 127 | 2 | 12,700 | 6,826 | 16 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 每个语料提供者录制100个语料,语料包括数字,自然数,人名,城市名,电话号码,通用指令和特定指令,语音丰富的句子和单词 | D | |
18 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 25小时 | 添加到咨询列表 | DEU_ASR003 | Global Phone | 有定稿的录音 | 德语 | 德国 | 低背景噪音(家庭/办公室) | 77 | 1 | 10,085 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 | D | |
42 | 音频 | ASR, 呼叫中心, 虚拟助手 | 仅固定电话 | 31小时 | 添加到咨询列表 | German SpeechDat (II) FDB-1000 | Nuance | 有定稿的录音 | 德语 | 德国 | 低背景噪音(家庭/办公室) | 988 | 1 | 43,000 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个语料提供者录制44个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 | D | |
43 | 音频 | ASR, 呼叫中心, 虚拟助手 | 仅固定电话 | 268小时 | 添加到咨询列表 | German SpeechDat(II) FDB-4000 | Nuance | 有定稿的录音 | 德语 | 德国 | 低背景噪音(家庭/办公室) | 4,000 | 1 | 1,60,000 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个语料提供者录制40个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 | D | |
190 | 文本 | ASR, TTS, 语言建模 | N/A | 15,000个单词 | 添加到咨询列表 | deu_CHE_PHON | Appen Global | 发音词典 | 德语 | 瑞士 | N/A | N/A | N/A | N/A | 15,000 | N/A | text | D | ||
94 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 53小时 | 添加到咨询列表 | Speecon German (Switzerland) database | Nuance | 有定稿的录音 | 德语 | 瑞士 | 混合(办公室/娱乐场所/车内/公共场所) | 600(550个成年语料提供者及50个儿童语料提供者) | 4 | 1,70,000 | 可根据要求提供 | 16 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个成年语料提供者录制290个语料,每个儿童语料提供者录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童语料提供者还需要提供关于玩具,手机的指令以及通用指令,成年语料提供者还需要提供应用词汇,以及自由发挥的语料 | D | |
200 | 文本 | ASR, TTS, 语言建模 | N/A | 197,000个单词 | 添加到咨询列表 | ita_ITA_PHON | Appen Global | 发音词典 | 意大利语 | 意大利 | N/A | N/A | N/A | N/A | 1,97,000 | N/A | text | Y | ||
52 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 36小时 | 添加到咨询列表 | ITA_ASR003 | Appen Global | 对话录音 | 意大利语 | 意大利 | 低背景噪音 | 200 | 2 | 可根据要求提供 | 18,974 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一 | Y | |
50 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 44小时 | 添加到咨询列表 | ITA_ASR001 | Appen Global | 有定稿的录音 | 意大利语 | 意大利 | 混合 | 200 | 4 | 40,000 | 7,316 | 22 | alaw | 完全转录为SpeechDAT类型 数据集附带一个包含所有转录词的发音词典 每个语料提供者录制200个语料,语料包括100个命令和特定指令,100个语音丰富的句子 | Y | |
51 | 音频 | ASR, 虚拟助手, 车载HMI及娱乐设备 | 麦克风 | 47小时 | 添加到咨询列表 | ITA_ASR002 | Appen Global | 有定稿的录音 | 意大利语 | 意大利 | 混合(车内) | 103 | 4 | 35,875 | 10,366 | 48 | alaw | 完全转录为SpeechDAT类型 数据集附带一个包含所有转录词的发音词典 每个语料提供者录制350个语料,语料包括数字,街道名称,通用指令和特定指令,语音丰富的句子和单词 每个语料提供者录制了1到2段样本,第一段在未熄火的停靠车辆中录制,第二段在以每小时60英里(100 公里 / 小时)的速度行驶的车辆中录制 | Y | |
53 | 音频 | TTS | 麦克风 | 3小时 | 添加到咨询列表 | ITA_TTS001 | Appen Global | 有定稿的录音 | 意大利语 | 意大利 | 低背景噪音(录音棚) | 1 | 1 | 3,300 | 可根据要求提供 | 22 | alaw | 数据集随附一个发音词典,其中包含该数据集中所说的所有单词 每个语料提供者录制3300条语料,包括语音丰富的句子 | Y | |
54 | 音频 | ASR, 呼叫中心, 虚拟助手 | 仅固定电话 | 38小时 | 添加到咨询列表 | Italian Fixed Network Speech SpeechDat(M) Corpus | Nuance | 有定稿的录音 | 意大利语 | 意大利 | 低背景噪音(家庭/办公室) | 1,000 | 1 | 39,000 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个语料提供者录制39个语料,语料包含连续和间隔的数字,自然数,金额,拼写单词,时间和日期短语,是/否问题,常见的应用词汇,在短语中的应用词汇以及语音丰富的句子 | Y | |
55 | 音频 | ASR, 呼叫中心, 虚拟助手 | 仅固定电话 | 228小时 | 添加到咨询列表 | Italian SpeechDat(II) FDB-3000 | Nuance | 有定稿的录音 | 意大利语 | 意大利 | 低背景噪音(家庭/办公室) | 3,040 | 1 | 1,34,000 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个语料提供者录制44个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 | Y | |
56 | 音频 | ASR, 呼叫中心, 虚拟助手 | 移动电话 | 103小时 | 添加到咨询列表 | Italian SpeechDat(II) MDB-250 | Nuance | 有定稿的录音 | 意大利语 | 意大利 | 低背景噪音(家庭/办公室) | 375 | 1 | 19,000 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个语料提供者录制51个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 | Y | |
89 | 音频 | ASR, 呼叫中心, 虚拟助手 | 移动电话 | 13小时 | 添加到咨询列表 | SpeechDat(M) Italian Mobile Network Speech Database | Nuance | 有定稿的录音 | 意大利语 | 意大利 | 低背景噪音(家庭/办公室) | 342 | 1 | 13,500 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个语料提供者录制40个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 | Y | |
201 | 文本 | ASR, TTS, 语言建模 | N/A | 147,000个单词 | 添加到咨询列表 | ita_ITA_POS | Appen Global | 词性词典 | 意大利语 | 意大利 | N/A | N/A | N/A | N/A | 1,47,000 | N/A | text | Y | ||
249 | 文本 | ASR, TTS, 语言建模 | N/A | 10,000个单词 | 添加到咨询列表 | tpi_PNG_PHON | Appen Global | 发音词典 | 托克皮辛语 | 巴布亚新几内亚 | N/A | N/A | N/A | N/A | 10,000 | N/A | text | T | ||
218 | 文本 | ASR, TTS, 语言建模 | N/A | 115,000个单词 | 添加到咨询列表 | nor_NOR_PHON | Appen Global | 发音词典 | 挪威语 | 挪威 | N/A | N/A | N/A | N/A | 1,15,000 | N/A | text | N | ||
219 | 文本 | ASR, TTS, 语言建模 | N/A | 3,000个单词 | 添加到咨询列表 | nor_NOR_POS | Appen Global | 词性词典 | 挪威语 | 挪威 | N/A | N/A | N/A | N/A | 3,000 | N/A | text | N | ||
162 | 文本 | ASR, TTS, 语言建模 | N/A | 50,000个单词 | 添加到咨询列表 | ces_CZE_PHON | Appen Global | 发音词典 | 捷克语 | 捷克共和国 | N/A | N/A | N/A | N/A | 50,000 | N/A | text | J | ||
13 | 音频 | ASR, 呼叫中心, 虚拟助手 | 仅固定电话 | 93小时 | 添加到咨询列表 | Czech SpeechDat(E) Dataset | Nuance | 有定稿的录音 | 捷克语 | 捷克共和国 | 低背景噪音 | 1,000 | 1 | 52,000 | 可根据要求提供 | 8 | alaw | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个语料提供者录制52个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 | J | |
12 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 31小时 | 添加到咨询列表 | CZE_ASR001 | Global Phone | 有定稿的录音 | 捷克语 | 捷克共和国 | 低背景噪音(家庭/办公室) | 102 | 1 | 12,425 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 | J | |
85 | 音频 | ASR, 呼叫中心, 虚拟助手 | 仅固定电话 | 65小时 | 添加到咨询列表 | Slovak SpeechDat(E) Database | Nuance | 有定稿的录音 | 斯洛伐克语 | 斯洛伐克 | 低背景噪音 | 1,000 | 1 | 48,000 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个语料提供者录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 | S | |
86 | 音频 | ASR, 呼叫中心, 虚拟助手 | 仅固定电话 | 76小时 | 添加到咨询列表 | Slovenian SpeechDat(II) FDB-1000 | Nuance | 有定稿的录音 | 斯洛维尼亚语 | 斯洛文尼亚 | 低背景噪音(家庭/办公室) | 1,000 | 1 | 40,000 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个语料提供者录制大约40个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 | S | |
241 | 文本 | ASR, TTS, 语言建模 | N/A | 66,000个单词 | 添加到咨询列表 | swa_KEN_PHON | Appen Global | 发音词典 | 斯瓦西里语 | 肯尼亚 | N/A | N/A | N/A | N/A | 66,000 | N/A | text | S | ||
80 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 20小时 | 添加到咨询列表 | PAP_ASR001 | Appen Global | 对话录音 | 旁遮普语 | 巴基斯坦 | 低背景噪音 | 205 | 2 | 可根据要求提供 | 7,298 | 8 | alaw | 数据集已完全转录并加盖了时间戳 数据集附带一个包含所有转录词的发音词典 在71%的对话中,对话双方(呼入者和呼出者)的说话内容都被收集转录了,在剩下的29%的对话中,只有一半的对话被收集并转录了 | P | |
136 | 文本 | NER, 内容分类, 搜索引擎 | N/A | 20,629个句子 | 添加到咨询列表 | JPY_NER001 | Appen Global | NER | 日语 | 日本 | N/A | N/A | N/A | 20,629 | 可根据要求提供 | N/A | text | R | ||
202 | 文本 | ASR, TTS, 语言建模 | N/A | 262,000个单词 | 添加到咨询列表 | jpn_JPN_PHON | Appen Global | 发音词典 | 日语 | 日本 | N/A | N/A | N/A | N/A | 2,62,000 | N/A | text | R | ||
57 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 33小时 | 添加到咨询列表 | JPN_ASR001 | Global Phone | 有定稿的录音 | 日语 | 日本 | 低背景噪音(家庭/办公室) | 144 | 1 | 13,067 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 | R | |
95 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 57小时 | 添加到咨询列表 | Speecon Japanese | Nuance | 有定稿的录音 | 日语 | 日本 | 混合(办公室/娱乐场所/车内/公共场所) | 600(550个成年语料提供者及50个儿童语料提供者) | 4 | 1,70,000 | 可根据要求提供 | 16 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个成年语料提供者录制290个语料,每个儿童语料提供者录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童语料提供者还需要提供关于玩具,手机的指令以及通用指令,成年语料提供者还需要提供应用词汇,以及自由发挥的语料 | R | |
203 | 文本 | ASR, TTS, 语言建模 | N/A | 265,000个单词 | 添加到咨询列表 | jpn_JPN_POS | Appen Global | 词性词典 | 日语 | 日本 | N/A | N/A | N/A | N/A | 2,65,000 | N/A | text | R | ||
221 | 文本 | ASR, TTS, 语言建模 | N/A | 65,000个单词 | 添加到咨询列表 | pus_AFG_PHON | Appen Global | 发音词典 | 普什图语 | 阿富汗 | N/A | N/A | N/A | N/A | 65,000 | N/A | text | P | ||
72 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 55小时 | 添加到咨询列表 | PAS_ASR001 | Appen Global | 对话录音 | 普什图语 | 阿富汗 | 低背景噪音 | 967 | 2 | 可根据要求提供 | 13,633 | 8 | wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 在大多数的通话中,对话双方的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话被收集并转录了 | P | |
73 | 音频 | ASR, 对话式AI, 语音分析 | 麦克风 | 39小时 | 添加到咨询列表 | PAS_ASR002 | Appen Global | 对话录音 | 普什图语 | 阿富汗 | 低背景噪音 | 40 | 2 | 可根据要求提供 | 9,480 | 16 | wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 转录文本可全部被翻译成法文, 作为可选的额外购买项 平均通话时间为120分钟,每则通话中由一名发言人担任采访者,另一名发言人担任受访者,模仿类似于TransTAC风格的场景(例如民政事务询问,检查站询问等) 面试官出现在不止一组对话中,但每组对话中的被面试者都是唯一的 | P | |
74 | 音频 | ASR, 自动字幕, 关键字检索 | 麦克风 | 51小时 | 添加到咨询列表 | PAS_BRC001 | Appen Global | 广播录音 | 普什图语 | 阿富汗 | 低背景噪音(录音棚) | N/A | 1 | 可根据要求提供 | 可根据要求提供 | N/A | wav | 数据集已完全转录并加上时间戳 数据集主要是语音,不包括音乐或广告 数据类型包括:脱口秀,访谈,新闻广播(不包括主持人阅读的新闻) | P | |
134 | 文本 | NER, 内容分类, 搜索引擎 | N/A | 17,313个句子 | 添加到咨询列表 | MAC_NER001 | Appen Global | NER | 普通话 | 中国 | N/A | N/A | N/A | 17,313 | 可根据要求提供 | N/A | text | P | ||
62 | 音频 | ASR, 呼叫中心, 虚拟助手 | 移动电话和固定电话 | 323小时 | 添加到咨询列表 | MAC_ASR001 | Appen Global | 有定稿的录音 | 普通话 | 中国 | 混合 | 2,000 | 1 | 2,00,000 | 7,145 | 8 | alaw | 完全转录为SpeechDAT类型 数据集附带一个包含所有转录词的发音词典[SAMPA] 每个语料提供者录制98个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令(从215个指令中挑选),语音丰富的句子和单词 | P | |
63 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 26小时 | 添加到咨询列表 | MAC_ASR002 | Global Phone | 有定稿的录音 | 普通话 | 中国 | 低背景噪音(家庭/办公室) | 132 | 1 | 10,225 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 | P | |
214 | 文本 | ASR, TTS, 语言建模 | N/A | 35,000个单词 | 添加到咨询列表 | zho_CHN_PHON | Appen Global | 发音词典 | 中文(简体) | 中国 | N/A | N/A | N/A | N/A | 35,000 | N/A | text | P | ||
215 | 文本 | ASR, TTS, 语言建模 | N/A | 50,000个单词 | 添加到咨询列表 | zho_TWN_PHON | Appen Global | 发音词典 | 中文(繁体) | 台湾 | N/A | N/A | N/A | N/A | 50,000 | N/A | text | P | ||
186 | 文本 | ASR, TTS, 语言建模 | N/A | 67,000个单词 | 添加到咨询列表 | fra_CAN_PHON | Appen Global | 发音词典 | 法语 | 加拿大 | N/A | N/A | N/A | N/A | 67,000 | N/A | text | F | ||
36 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 9小时 | 添加到咨询列表 | FRC_ASR003 | Appen Global | 对话录音 | 法语 | 加拿大 | 混合 | 68 | 2 | 可根据要求提供 | 6,022 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 平均通话时长为10到15分钟 在大多数通话中,只有一半的对话被收集并转录了,但是对于一小部分的通话,对话双方(呼入者和呼出者)的说话内容都被收集并转录了 | F | |
34 | 音频 | ASR, 呼叫中心, 虚拟助手 | 移动电话 | 131小时 | 添加到咨询列表 | FRC_ASR001 | Appen Global | 有定稿的录音 | 法语 | 加拿大 | 混合 | 1,000 | 1 | 1,00,000 | 11,697 | 8 | alaw | 完全转录为SpeechDAT类型 数据集附带一个包含所有转录词的发音词典[SAMPA] 每个语料提供者录制100个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 | F | |
35 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 46小时 | 添加到咨询列表 | FRC_ASR002 | Appen Global | 有定稿的录音 | 法语 | 加拿大 | 低背景噪音(家庭/办公室) | 150 | 1 | 22,500 | 10,755 | 16 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 每个语料提供者录制150个语料,语料包含数字,数字串(随机生成的),地址,语音丰富的句子和单词 | F | |
60 | 音频 | ASR, 呼叫中心, 虚拟助手 | 仅固定电话 | 45小时 | 添加到咨询列表 | Luxembourgish French SpeechDat(II) FDB-500 (FIXED1LF) | Nuance | 有定稿的录音 | 法语 | 卢森堡 | 低背景噪音 | 614 | 1 | 32,000 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个语料提供者录制53个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 | F | |
5 | 音频 | ASR, 呼叫中心, 虚拟助手 | 仅固定电话 | 76小时 | 添加到咨询列表 | Belgian French SpeechDat(II) FDB-1000 (FIXED1BF) | Nuance | 有定稿的录音 | 法语 | 比利时 | 低背景噪音 | 1,000 | 1 | 53,000 | 可根据要求提供 | 8 | alaw | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个语料提供者录制53个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令 | F | |
187 | 文本 | ASR, TTS, 语言建模 | N/A | 112,000个单词 | 添加到咨询列表 | fra_FRA_PHON | Appen Global | 发音词典 | 法语 | 法国 | N/A | N/A | N/A | N/A | 1,12,000 | N/A | text | F | ||
40 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 25小时 | 添加到咨询列表 | FRF_ASR001 | Appen Global | 对话录音 | 法语 | 法国 | 低背景噪音 | 563 | 2 | 可根据要求提供 | 11,922 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 在大多数的通话中,对话双方的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话被收集并转录了 | F | |
37 | 音频 | ASR, 呼叫中心, 虚拟助手 | 仅固定电话 | 41小时 | 添加到咨询列表 | French SpeechDat(II) FDB-1000 | Nuance | 有定稿的录音 | 法语 | 法国 | 低背景噪音(家庭/办公室) | 1,017 | 1 | 48,000 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个语料提供者录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 | F | |
38 | 音频 | ASR, 呼叫中心, 虚拟助手 | 仅固定电话 | 305小时 | 添加到咨询列表 | French SpeechDat(II) FDB-5000 | Nuance | 有定稿的录音 | 法语 | 法国 | 低背景噪音 | 5,040 | 1 | 2,37,000 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个语料提供者录制47个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 | F | |
41 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 26小时 | 添加到咨询列表 | FRF_ASR003 | Global Phone | 有定稿的录音 | 法语 | 法国 | 低背景噪音(家庭/办公室) | 98 | 1 | 10,273 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 | F | |
188 | 文本 | ASR, TTS, 语言建模 | N/A | 95,000个单词 | 添加到咨询列表 | fra_FRA_POS | Appen Global | 词性词典 | 法语 | 法国 | N/A | N/A | N/A | N/A | 95,000 | N/A | text | F | ||
39 | 音频 | ASR, 虚拟助手, 车载HMI及娱乐设备 | 麦克风和移动电话 | 添加到咨询列表 | French SpeechDat-Car | Nuance | 有定稿的录音 | 法语 | 法国 | 混合(车内) | 300 | 5 | 37,500 | 可根据要求提供 | 16和8 | 可根据要求提供 | 数据集已完全转录,并附有发音词典和验证报告 每个语料提供者录制大约125个语料,语料包含数字,自然数,字母串,个人、地点和企业名称(一些是自由发挥的),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的语料 | F | ||
145 | 文本 | ASR, TTS, 语言建模 | N/A | 4,000个单词 | 添加到咨询列表 | fra_DZA_PHON | Appen Global | 发音词典 | 法语 | 阿尔及利亚 | N/A | N/A | N/A | N/A | 4,000 | N/A | text | 阿拉伯文字 | F | |
222 | 文本 | ASR, TTS, 语言建模 | N/A | 40,000个单词 | 添加到咨询列表 | pol_POL_PHON | Appen Global | 发音词典 | 波兰语 | 波兰 | N/A | N/A | N/A | N/A | 40,000 | N/A | text | B | ||
120 | 音频 | ASR, 虚拟助手, 聊天机器人 | 移动电话 | 293小时 | 添加到咨询列表 | POL_ASR002_CN | Appen China | 有定稿的录音 | 波兰语 | 波兰 | 低背景噪音(家庭/办公室) | 353 | 1 | 1,06,674 | 1,68,544 | 16 | wav | 数据集已完全转录 | B | |
76 | 音频 | ASR, 呼叫中心, 虚拟助手 | 仅固定电话 | 78小时 | 添加到咨询列表 | Polish SpeechDat(E) Database | Nuance | 有定稿的录音 | 波兰语 | 波兰 | 低背景噪音 | 1,000 | 1 | 48,000 | 可根据要求提供 | 8 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个语料提供者录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 | B | |
75 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 25小时 | 添加到咨询列表 | POL_ASR001 | Global Phone | 有定稿的录音 | 波兰语 | 波兰 | 低背景噪音(家庭/办公室) | 99 | 1 | 10,130 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 | B | |
223 | 文本 | ASR, TTS, 语言建模 | N/A | 4,000个单词 | 添加到咨询列表 | pol_POL_POS | Appen Global | 词性词典 | 波兰语 | 波兰 | N/A | N/A | N/A | N/A | 4,000 | N/A | text | B | ||
135 | 文本 | NER, 内容分类, 搜索引擎 | N/A | 19,584个句子 | 添加到咨询列表 | FAR_NER001 | Appen Global | NER | 波斯语 | 伊朗 | N/A | N/A | N/A | 19,584 | 可根据要求提供 | N/A | text | B | ||
32 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 30小时 | 添加到咨询列表 | FAR_ASR002 | Appen Global | 对话录音 | 波斯语 | 伊朗 | 混合 | 1,000 | 2 | 可根据要求提供 | 12,358 | 8 | wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 | B | |
31 | 音频 | ASR, 呼叫中心, 虚拟助手 | 移动电话和固定电话 | 85小时 | 添加到咨询列表 | FAR_ASR001 | Appen Global | 有定稿的录音 | 波斯语 | 伊朗 | 混合 | 789 | 1 | 38,400 | 8,716 | 8 | alaw | 完全转录为OrienTel类型 数据集附带一个包含所有转录词的发音词典[SAMPA] 每个语料提供者录制48个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 | B | |
246 | 文本 | ASR, TTS, 语言建模 | N/A | 50,000个单词 | 添加到咨询列表 | tel_IND_PHON | Appen Global | 发音词典 | 泰卢固语 | 印度 | N/A | N/A | N/A | N/A | 50,000 | N/A | text | T | ||
247 | 文本 | ASR, TTS, 语言建模 | N/A | 105,000个单词 | 添加到咨询列表 | tam_IND_PHON | Appen Global | 发音词典 | 泰米尔语 | 印度 | N/A | N/A | N/A | N/A | 1,05,000 | N/A | text | T | ||
127 | 图像 | 文件处理, 文件搜索 | 照相机 | 1219张图片 | 添加到咨询列表 | IMG_OCR_THA_CN | Appen China | OCR | 泰语 | 泰国 | 不同光线 | 10 | NA | NA | NA | NA | jpg | 包含文字的图像,例如购物收据,票据,发票,出租车发票等等 | T | |
248 | 文本 | ASR, TTS, 语言建模 | N/A | 30,000个单词 | 添加到咨询列表 | tha_THA_PHON | Appen Global | 发音词典 | 泰语 | 泰国 | N/A | N/A | N/A | N/A | 30,000 | N/A | text | T | ||
101 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 28小时 | 添加到咨询列表 | THA_ASR001 | Global Phone | 有定稿的录音 | 泰语 | 泰国 | 低背景噪音(家庭/办公室) | 98 | 1 | 14,039 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 | T | |
194 | 文本 | ASR, TTS, 语言建模 | N/A | 15,000个单词 | 添加到咨询列表 | hat_HTI_PHON | Appen Global | 发音词典 | 海地克里奥尔语 | 海地 | N/A | N/A | N/A | N/A | 15,000 | N/A | text | H | ||
257 | 文本 | ASR, TTS, 语言建模 | N/A | 10,000个单词 | 添加到咨询列表 | hsn_CHN_PHON | Appen Global | 发音词典 | 湘语 | 中国 | N/A | N/A | N/A | N/A | 10,000 | N/A | text | X | ||
204 | 文本 | ASR, TTS, 语言建模 | N/A | 20,000个单词 | 添加到咨询列表 | jav_IDN_PHON | Appen Global | 发音词典 | 爪哇语 | 印度尼西亚 | N/A | N/A | N/A | N/A | 20,000 | N/A | text | G | ||
242 | 文本 | ASR, TTS, 语言建模 | N/A | 100,000个单词 | 添加到咨询列表 | swe_SWE_PHON | Appen Global | 发音词典 | 瑞典语 | 瑞典 | N/A | N/A | N/A | N/A | 1,00,000 | N/A | text | R | ||
243 | 文本 | ASR, TTS, 语言建模 | N/A | 105,000个单词 | 添加到咨询列表 | swe_SWE_POS | Appen Global | 词性词典 | 瑞典语 | 瑞典 | N/A | N/A | N/A | N/A | 1,05,000 | N/A | text | R | ||
98 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 30小时 | 添加到咨询列表 | SWE_ASR001 | Global Phone | 有定稿的录音 | 瑞典语 | 瑞典-芬兰 | 低背景噪音(家庭/办公室) | 98 | 1 | 11,816 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 | R | |
192 | 文本 | ASR, TTS, 语言建模 | N/A | 35,000个单词 | 添加到咨询列表 | grn_PRY_PHON | Appen Global | 发音词典 | 瓜拉尼语 | 巴拉圭 | N/A | N/A | N/A | N/A | 35,000 | N/A | text | G | ||
258 | 文本 | ASR, TTS, 语言建模 | N/A | 75,000个单词 | 添加到咨询列表 | zul_ZAF_PHON | Appen Global | 发音词典 | 祖鲁语 | 南非 | N/A | N/A | N/A | N/A | 75,000 | N/A | text | Z | ||
211 | 文本 | ASR, TTS, 语言建模 | N/A | 60,000个单词 | 添加到咨询列表 | lit_LTU_PHON | Appen Global | 发音词典 | 立陶宛语 | 立陶宛 | N/A | N/A | N/A | N/A | 60,000 | N/A | text | L | ||
126 | 图像 | 文件处理, 文件搜索 | 照相机 | 200张图片 | 添加到咨询列表 | IMG_OCR_MAC_CN | Appen China | OCR | N/A | 中国 | 不同光线 | 30 | NA | NA | NA | NA | jpg | 每张图片中的文字均被线条边框所标记 包含大量中文的图像,例如书籍,出版物,海报,收据,PPT以及印刷品等等 | Z | |
233 | 文本 | ASR, TTS, 语言建模 | N/A | 25,000个单词 | 添加到咨询列表 | kur_IRQ_PHON | Appen Global | 发音词典 | 索马里语 | 伊拉克 | N/A | N/A | N/A | N/A | 25,000 | N/A | text | S | ||
232 | 文本 | ASR, TTS, 语言建模 | N/A | 76,000个单词 | 添加到咨询列表 | som_SOM_PHON | Appen Global | 发音词典 | 索马里语 | 索马里 | N/A | N/A | N/A | N/A | 76,000 | N/A | text | S | ||
87 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 50小时 | 添加到咨询列表 | SOM_ASR001 | Appen Global | 对话录音 | 索马里语 | 索马里 | 低背景噪音 | 1,000 | 2 | 可根据要求提供 | 23,217 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 | S | |
228 | 文本 | ASR, TTS, 语言建模 | N/A | 15,000个单词 | 添加到咨询列表 | ron_ROU_PHON | Appen Global | 发音词典 | 罗马尼亚语 | 罗马尼亚 | N/A | N/A | N/A | N/A | 15,000 | N/A | text | L | ||
81 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 37小时 | 添加到咨询列表 | ROM_ASR001 | Appen Global | 对话录音 | 罗马尼亚语 | 罗马尼亚 | 低背景噪音 | 200 | 2 | 可根据要求提供 | 16,658 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一 | L | |
210 | 文本 | ASR, TTS, 语言建模 | N/A | 9,000个单词 | 添加到咨询列表 | lao_LAO_PHON | Appen Global | 发音词典 | 老挝语 | 老挝 | N/A | N/A | N/A | N/A | 9,000 | N/A | text | L | ||
128 | 图像 | 文件处理, 文件搜索 | 照相机 | 7293张图片 | 添加到咨询列表 | IMG_OCR_FIN_CN | Appen China | OCR | 芬兰语 | 芬兰 | 不同光线 | 4 | NA | NA | NA | NA | jpg | 包含文字的图像,例如广告牌,产品外包装,标志牌,杂志以及菜单等等 | F | |
184 | 文本 | ASR, TTS, 语言建模 | N/A | 85,000个单词 | 添加到咨询列表 | fin_FIN_PHON | Appen Global | 发音词典 | 芬兰语 | 芬兰 | N/A | N/A | N/A | N/A | 85,000 | N/A | text | F | ||
185 | 文本 | ASR, TTS, 语言建模 | N/A | 10,000个单词 | 添加到咨询列表 | fin_FIN_POS | Appen Global | 词性词典 | 芬兰语 | 芬兰 | N/A | N/A | N/A | N/A | 10,000 | N/A | text | F | ||
170 | 文本 | ASR, TTS, 语言建模 | N/A | 50,000个单词 | 添加到咨询列表 | eng_CAN_PHON | Appen Global | 发音词典 | 英语 | 加拿大 | N/A | N/A | N/A | N/A | 50,000 | N/A | text | Y | ||
22 | 音频 | ASR, 呼叫中心, 虚拟助手 | 移动电话和固定电话 | 144小时 | 添加到咨询列表 | ENC_ASR001 | Appen Global | 有定稿的录音 | 英语 | 加拿大 | 混合 | 1,000 | 1 | 99,000 | 12,483 | 8 | alaw或wav | 完全转录为SALA II/SpeechDAT类型 数据集附带一个包含所有转录词的发音词典 每个语料提供者录制99个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 | Y | |
171 | 文本 | ASR, TTS, 语言建模 | N/A | 3,000个单词 | 添加到咨询列表 | eng_CAN_POS | Appen Global | 词性词典 | 英语 | 加拿大 | N/A | N/A | N/A | N/A | 3,000 | N/A | text | Y | ||
174 | 文本 | ASR, TTS, 语言建模 | N/A | 60,000个单词 | 添加到咨询列表 | eng_IND_PHON | Appen Global | 发音词典 | 英语 | 印度 | N/A | N/A | N/A | N/A | 60,000 | N/A | text | Y | ||
25 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 67小时 | 添加到咨询列表 | ENI_ASR002 | Appen Global | 对话录音 | 英语 | 印度 | 低背景噪音 | 540 | 2 | 77,565 | 11,646 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 这个项目记录了271个电话对话 | Y | |
24 | 音频 | ASR, 呼叫中心, 虚拟助手 | 移动电话和固定电话 | 217小时 | 添加到咨询列表 | ENI_ASR001 | Appen Global | 有定稿的录音 | 英语 | 印度 | 混合 | 2,358 | 1 | 1,17,900 | 9,190 | 8 | alaw | 完全转录为SpeechDAT类型 数据集附带一个包含所有转录词的发音词典[SAMPA] 每个语料提供者录制49个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 | Y | |
175 | 文本 | ASR, TTS, 语言建模 | N/A | 13,000个单词 | 添加到咨询列表 | eng_IND_POS | Appen Global | 词性词典 | 英语 | 印度 | N/A | N/A | N/A | N/A | 13,000 | N/A | text | Y | ||
172 | 文本 | ASR, TTS, 语言建模 | N/A | 5,000个单词 | 添加到咨询列表 | eng_PHL_PHON | Appen Global | 发音词典 | 英语 | 菲律宾 | N/A | N/A | N/A | N/A | 5,000 | N/A | text | Y | ||
23 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 53小时 | 添加到咨询列表 | ENF_ASR001 | Appen Global | 对话录音 | 英语 | 菲律宾 | 低背景噪音 | 450 | 2 | 41,602 | 7,272 | 8 | alaw或wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 平均通话时长为10到15分钟 | Y | |
21 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 28小时 | 添加到咨询列表 | ENA_ASR001 | Appen Global | 对话录音 | 英语 | 埃及 | 低背景噪音 | 250 | 2 | 可根据要求提供 | 5,619 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 平均通话时长为10到15分钟 | Y | |
131 | 文本 | NER, 内容分类, 搜索引擎 | N/A | 22,768个句子 | 添加到咨询列表 | ENG_NER001 | Appen Global | NER | 英语 | N/A | N/A | N/A | N/A | 22,768 | 可根据要求提供 | N/A | text | Y | ||
169 | 文本 | ASR, TTS, 语言建模 | N/A | 157,000个单词 | 添加到咨询列表 | eng_AUS_PHON | Appen Global | 发音词典 | 英语 | 澳大利亚 | N/A | N/A | N/A | N/A | 1,57,000 | N/A | text | Y | ||
2 | 音频 | ASR, 呼叫中心, 虚拟助手 | 移动电话和固定电话 | 92小时 | 添加到咨询列表 | AUS_ASR001 | Appen Global | 有定稿的录音 | 英语 | 澳大利亚 | 低背景噪音(家庭/办公室) | 500 | 1 | 82,500 | 35,137 | 8 | alaw | 完全转录为SpeechDAT类型 数据集附带一个包含所有转录词的发音词典 每个语料提供者录制162个朗读录音,录音包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令(从215个指令中挑选),语音丰富的句子和单词 | E | |
3 | 音频 | ASR, 呼叫中心, 虚拟助手 | 移动电话和固定电话 | 118小时 | 添加到咨询列表 | AUS_ASR002 | Appen Global | 有定稿的录音 | 英语 | 澳大利亚 | 混合 | 1,000 | 1 | 75,000 | 19 | 8 | alaw | 完全转录为SpeechDAT类型 数据集附带一个包含所有转录词的发音词典 每个语料提供者录制75个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词 语料包含了有定稿的录音和自由发挥的录音,其中每个稿子包含了5条自由发挥的录音 | E | |
176 | 文本 | ASR, TTS, 语言建模 | N/A | 12,000个单词 | 添加到咨询列表 | eng_IRL_PHON | Appen Global | 发音词典 | 英语 | 爱尔兰 | N/A | N/A | N/A | N/A | 12,000 | N/A | text | Y | ||
177 | 文本 | ASR, TTS, 语言建模 | N/A | 50,000个单词 | 添加到咨询列表 | eng_NZL_PHON | Appen Global | 发音词典 | 英语 | 纽西兰 | N/A | N/A | N/A | N/A | 50,000 | N/A | text | Y | ||
180 | 文本 | ASR, TTS, 语言建模 | N/A | 330,000个单词 | 添加到咨询列表 | eng_USA_PHON | Appen Global | 发音词典 | 英语 | 美国 | N/A | N/A | N/A | N/A | 3,30,000 | N/A | text | Y | ||
107 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话 | 1,000小时 | 添加到咨询列表 | USE_ASR003 | Appen Global | 对话录音 | 英语 | 美国 | 低背景噪音 | 2,000 | 1 | 5,00,000 | 52,586 | 16 | wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 对话涵盖了各种主题,包括学习/专业/工作,家乡,生活安排,天气和季节,准时,电视节目/电影 | Y | |
93 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 53小时 | 添加到咨询列表 | Speecon English (USA) database | Nuance | 有定稿的录音 | 英语 | 美国 | 混合(办公室/娱乐场所/车内/公共场所) | 600(550个成年语料提供者及50个儿童语料提供者) | 4 | 1,70,000 | 可根据要求提供 | 16 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个成年语料提供者录制290个语料,每个儿童语料提供者录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童语料提供者还需要提供关于玩具,手机的指令以及通用指令,成年语料提供者还需要提供应用词汇,以及自由发挥的语料 | Y | |
106 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 62小时 | 添加到咨询列表 | USE_ASR001 | Appen Global | 有定稿的录音 | 英语 | 美国 | 低背景噪音(录音棚) | 200 | 2 | 80,000 | 18,318 | 48 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 每个语料提供者录制400个语料,语料包括数字,自然数,人名,城市名,电话号码,通用指令和特定指令,语音丰富的句子和单词 | Y | |
181 | 文本 | ASR, TTS, 语言建模 | N/A | 263,000个单词 | 添加到咨询列表 | eng_USA_POS | Appen Global | 词性词典 | 英语 | 美国 | N/A | N/A | N/A | N/A | 2,63,000 | N/A | text | Y | ||
99 | 音频 | TTS | 头戴式麦克风 | 11小时 | 添加到咨询列表 | TC-STAR female baseline voice Laura | Nuance | 有定稿的录音 | 英语 | 英国 | 低背景噪音(录音棚) | 1 | 1 | 可根据要求提供 | 可根据要求提供 | 96 | 可根据要求提供 | 数据集包括人工正字法转录的转录文件,自动分割的音素,自动生成的音高标记(已手动检查了一定比例的语音段和音高标记) 数据集附有一个包含词性,词元和音标的发音词典 | Y | |
100 | 音频 | TTS | 头戴式麦克风 | 7小时 | 添加到咨询列表 | TC-STAR male baseline voice Ian | Nuance | 有定稿的录音 | 英语 | 英国 | 低背景噪音(录音棚) | 1 | 1 | 可根据要求提供 | 可根据要求提供 | 96 | 可根据要求提供 | 数据集包括人工正字法转录的转录文件,自动分割的音素,自动生成的音高标记(已手动检查了一定比例的语音段和音高标记) 数据集附有一个包含词性,词元和音标的发音词典 | Y | |
178 | 文本 | ASR, TTS, 语言建模 | N/A | 195,000个单词 | 添加到咨询列表 | eng_GBR_PHON | Appen Global | 发音词典 | 英语 | 英国 | N/A | N/A | N/A | N/A | 1,95,000 | N/A | text | Y | ||
259 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 50小时 | 添加到咨询列表 | UKE_ASR001B | Appen Global | 对话录音 | 英语 | 英国 | 低背景噪音 | 1,150 | 2 | 可根据要求提供 | 13,192 | 8 | wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 | Y | |
104 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 150小时 | 添加到咨询列表 | UKE_ASR001 | Appen Global | 对话录音 | 英语 | 英国 | 低背景噪音 | 1,150 | 2 | 2,98,562 | 24,193 | 8 | wav | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 | Y | |
179 | 文本 | ASR, TTS, 语言建模 | N/A | 155,000个单词 | 添加到咨询列表 | eng_GBR_POS | Appen Global | 词性词典 | 英语 | 英国 | N/A | N/A | N/A | N/A | 1,55,000 | N/A | text | Y | ||
168 | 文本 | ASR, TTS, 语言建模 | N/A | 5,000个单词 | 添加到咨询列表 | eng_ARE_PHON | Appen Global | 发音词典 | 英语 | 阿拉伯联合酋长国 | N/A | N/A | N/A | N/A | 5,000 | N/A | text | Y | ||
67 | 音频 | ASR, 呼叫中心, 虚拟助手 | 移动电话和固定电话 | 33小时 | 添加到咨询列表 | OrienTel English as spoken in the United Arab Emirates | Nuance | 有定稿的录音 | 英语 | 阿拉伯联合酋长国 | 低背景噪音 | 500 | 1 | 25,500 | 可根据要求提供 | 8 | alaw | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个语料提供者录制51个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令 | Y | |
173 | 文本 | ASR, TTS, 语言建模 | N/A | 18,000个单词 | 添加到咨询列表 | eng_HKG_PHON | Appen Global | 发音词典 | 英语 | 香港 | N/A | N/A | N/A | N/A | 18,000 | N/A | text | Y | ||
33 | 音频 | ASR, 呼叫中心, 虚拟助手 | 麦克风 | 80小时 | 添加到咨询列表 | Flemish SpeechDat(II) FDB-1000 (FIXED1FL) | Nuance | 有定稿的录音 | 荷兰语 | 比利时 | 低背景噪音 | 1,000 | 1 | 52,000 | 可根据要求提供 | 8 | alaw | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个语料提供者录制52个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令 | H | |
91 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 47小时 | 添加到咨询列表 | Speecon Dutch from Belgium | Nuance | 有定稿的录音 | 荷兰语 | 比利时 | 混合(办公室/娱乐场所/车内/公共场所) | 600(550个成年语料提供者及50个儿童语料提供者) | 4 | 1,70,000 | 可根据要求提供 | 16 | alaw | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个成年语料提供者录制290个语料,每个儿童语料提供者录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童语料提供者还需要提供关于玩具,手机的指令以及通用指令,成年语料提供者还需要提供应用词汇,以及自由发挥的语料 | H | |
19 | 音频 | ASR, 虚拟助手, 车载HMI及娱乐设备 | 麦克风和移动电话 | 27小时 | 添加到咨询列表 | Dutch and Flemish SpeechDat-Car | Nuance | 有定稿的录音 | 荷兰语 | 荷兰-比利时 | 混合(车内) | 302 | 5 | 15,100 | 可根据要求提供 | 16和8 | alaw | 数据集已完全转录,并附有发音词典和验证报告 每个成年语料提供者录制125个语料,语料包括数字,自然数,字母串,个人、地点和企业名称(一些是自由发挥的),通用指令和特定指令,语音丰富的句子和单词及自由发挥的语料 | H | |
167 | 文本 | ASR, TTS, 语言建模 | N/A | 45,000个单词 | 添加到咨询列表 | nld_NLD_PHON | Appen Global | 发音词典 | 荷兰语 | 荷兰 | N/A | N/A | N/A | N/A | 45,000 | N/A | text | H | ||
66 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 36小时 | 添加到咨询列表 | NLD_ASR001 | Appen Global | 对话录音 | 荷兰语 | 荷兰 | 低背景噪音 | 200 | 2 | 可根据要求提供 | 14,964 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一 | H | |
92 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 68小时 | 添加到咨询列表 | Speecon Dutch from the Netherlands | Nuance | 有定稿的录音 | 荷兰语 | 荷兰 | 混合(办公室/娱乐场所/车内/公共场所) | 600(550个成年语料提供者及50个儿童语料提供者) | 4 | 1,70,000 | 可根据要求提供 | 16 | alaw | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个成年语料提供者录制290个语料,每个儿童语料提供者录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童语料提供者还需要提供关于玩具,手机的指令以及通用指令,成年语料提供者还需要提供应用词汇,以及自由发挥的语料 | H | |
224 | 文本 | ASR, TTS, 语言建模 | N/A | 102,000个单词 | 添加到咨询列表 | por_BRA_PHON | Appen Global | 发音词典 | 葡萄牙语 | 巴西 | N/A | N/A | N/A | N/A | 1,02,000 | N/A | text | P | ||
78 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 33小时 | 添加到咨询列表 | PTB_ASR002 | Appen Global | 对话录音 | 葡萄牙语 | 巴西 | 低背景噪音 | 200 | 2 | 可根据要求提供 | 11,287 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 | P | |
225 | 文本 | ASR, TTS, 语言建模 | N/A | 100,000个单词 | 添加到咨询列表 | por_BRA_POS | Appen Global | 词性词典 | 葡萄牙语 | 巴西 | N/A | N/A | N/A | N/A | 1,00,000 | N/A | text | P | ||
77 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 26小时 | 添加到咨询列表 | PTB_ASR001 | Global Phone | 有定稿的录音 | 葡萄牙语 | 巴西 | 低背景噪音(家庭/办公室) | 102 | 1 | 10,417 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 | P | |
226 | 文本 | ASR, TTS, 语言建模 | N/A | 112,000个单词 | 添加到咨询列表 | por_PRT_PHON | Appen Global | 发音词典 | 葡萄牙语 | 葡萄牙 | N/A | N/A | N/A | N/A | 1,12,000 | N/A | text | P | ||
79 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 36小时 | 添加到咨询列表 | PTP_ASR001 | Appen Global | 对话录音 | 葡萄牙语 | 葡萄牙 | 低背景噪音 | 200 | 2 | 可根据要求提供 | 16,339 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一 | P | |
227 | 文本 | ASR, TTS, 语言建模 | N/A | 100,000个单词 | 添加到咨询列表 | por_PRT_POS | Appen Global | 词性词典 | 葡萄牙语 | 葡萄牙 | N/A | N/A | N/A | N/A | 1,00,000 | N/A | text | P | ||
217 | 文本 | ASR, TTS, 语言建模 | N/A | 30,000个单词 | 添加到咨询列表 | mon_MNG_PHON | Appen Global | 发音词典 | 蒙古语 | 蒙古 | N/A | N/A | N/A | N/A | 30,000 | N/A | text | M | ||
237 | 文本 | ASR, TTS, 语言建模 | N/A | 15,000个单词 | 添加到咨询列表 | spa_COL_PHON | Appen Global | 发音词典 | 西班牙语 | 哥伦比亚 | N/A | N/A | N/A | N/A | 15,000 | N/A | text | X | ||
240 | 文本 | ASR, TTS, 语言建模 | N/A | 15,000个单词 | 添加到咨询列表 | spa_VEN_PHON | Appen Global | 发音词典 | 西班牙语 | 委内瑞拉 | N/A | N/A | N/A | N/A | 15,000 | N/A | text | X | ||
236 | 文本 | ASR, TTS, 语言建模 | N/A | 15,000个单词 | 添加到咨询列表 | spa_CHL_PHON | Appen Global | 发音词典 | 西班牙语 | 智利 | N/A | N/A | N/A | N/A | 15,000 | N/A | text | X | ||
235 | 文本 | ASR, TTS, 语言建模 | N/A | 100,000个单词 | 添加到咨询列表 | spa_ESP_PHON | Appen Global | 发音词典 | 西班牙语 | 西班牙 | N/A | N/A | N/A | N/A | 1,00,000 | N/A | text | X | ||
117 | 音频 | ASR, 虚拟助手, 聊天机器人 | 移动电话 | 540小时 | 添加到咨询列表 | ESP_ASR002_CN | Appen China | 有定稿的录音 | 西班牙语 | 西班牙 | 低背景噪音(家庭/办公室) | 347 | 1 | 2,58,395 | 1,34,939 | 16 | wav | 数据集已完全转录 | X | |
28 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 39小时 | 添加到咨询列表 | ESP_ASR001 | Appen Global | 有定稿的录音 | 西班牙语 | 西班牙 | 混合 | 200 | 4 | 40,000 | 6,367 | 22 | alaw | 完全转录为SpeechDAT类型 数据集附带一个包含所有转录词的发音词典 每个语料提供者录制200个语料,语料包括100个命令和特定指令,100个语音丰富的句子 | X | |
30 | 音频 | TTS | 麦克风 | 1小时 | 添加到咨询列表 | ESP_TTS001 | Appen Global | 有定稿的录音 | 西班牙语 | 西班牙 | 低背景噪音(录音棚) | 1 | 1 | 1,787 | 3,614 | 22 | alaw | 数据集随附一个发音词典,其中包含该数据集中所说的所有单词 每个演讲者提供1787条语料,包括语音丰富的句子 | X | |
97 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 46小时 | 添加到咨询列表 | Speecon Spanish Database | Nuance | 有定稿的录音 | 西班牙语 | 西班牙 | 混合(办公室/娱乐场所/车内/公共场所) | 600(550个成年语料提供者及50个儿童语料提供者) | 4 | 1,70,000 | 可根据要求提供 | 16 | 可根据要求提供 | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个成年语料提供者录制290个语料,每个儿童语料提供者录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童语料提供者还需要提供关于玩具,手机的指令以及通用指令,成年语料提供者还需要提供应用词汇,以及自由发挥的语料 | X | |
27 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 22小时 | 添加到咨询列表 | ESL_ASR002 | Appen Global | 对话录音 | 西班牙语 | 智利-哥伦比亚 | 混合 | 84 | 2 | 可根据要求提供 | 可根据要求提供 | 8 | wav | 数据集已完全转录并加了时间戳 银行和电信领域的呼叫中心风格的对话(由64个客户和14个代理商提供的),主要使用移动电话 | X | |
26 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 17小时 | 添加到咨询列表 | ESL_ASR001 | Global Phone | 有定稿的录音 | 西班牙语 | 哥斯达黎加 | 低背景噪音(家庭/办公室) | 100 | 1 | 6,898 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 | X | |
238 | 文本 | ASR, TTS, 语言建模 | N/A | 15,000个单词 | 添加到咨询列表 | spa_PER_PHON | Appen Global | 发音词典 | 西班牙语 | 秘鲁 | N/A | N/A | N/A | N/A | 15,000 | N/A | text | X | ||
239 | 文本 | ASR, TTS, 语言建模 | N/A | 90,000个单词 | 添加到咨询列表 | spa_USA_PHON | Appen Global | 发音词典 | 西班牙语 | 美国 | N/A | N/A | N/A | N/A | 90,000 | N/A | text | X | ||
234 | 文本 | ASR, TTS, 语言建模 | N/A | 15,000个单词 | 添加到咨询列表 | spa_ARG_PHON | Appen Global | 发音词典 | 西班牙语 | 阿根廷 | N/A | N/A | N/A | N/A | 15,000 | N/A | text | X | ||
44 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 20小时 | 添加到咨询列表 | HAU_ASR001 | Global Phone | 有定稿的录音 | 豪萨语 | 多国 | 低背景噪音(家庭/办公室) | 103 | 1 | 7,895 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 | H | |
195 | 文本 | ASR, TTS, 语言建模 | N/A | 11,000个单词 | 添加到咨询列表 | hau_NGA_PHON | Appen Global | 发音词典 | 豪萨语 | 奈及利亚 | N/A | N/A | N/A | N/A | 11,000 | N/A | text | H | ||
45 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话 | 33小时 | 添加到咨询列表 | HAU_ASR002 | Appen Global | 对话录音 | 豪萨语 | 奈及利亚 | 低背景噪音 | 200 | 2 | 可根据要求提供 | 7,949 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 这个项目记录了200个电话对话 - 是由100个呼入者,各进行2次呼叫(一次使用固定电话,一次使用移动电话)至100个接收者之一 | H | |
255 | 文本 | ASR, TTS, 语言建模 | N/A | 8,000个单词 | 添加到咨询列表 | vie_VNM_PHON | Appen Global | 发音词典 | 越南语 | 越南 | N/A | N/A | N/A | N/A | 8,000 | N/A | text | Y | ||
108 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 47小时 | 添加到咨询列表 | VIE_ASR001 | Global Phone | 有定稿的录音 | 越南语 | 越南 | 低背景噪音(家庭/办公室) | 129 | 1 | 18,842 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 | Y | |
129 | 视频 | 健身应用, 行为识别, 手势识别 | 移动电话 | 2000个视频 | 添加到咨询列表 | VED_HUMAN_BODY_CN | Appen China | 人体 | N/A | 中国 | 不同背景及光线 | 1000 | NA | NA | NA | NA | mp4 | 每个视频片段长约10至20秒 | Z | |
165 | 文本 | ASR, TTS, 语言建模 | N/A | 30,000个单词 | 添加到咨询列表 | prs_AFG_PHON | Appen Global | 发音词典 | 达里语 | 阿富汗 | N/A | N/A | N/A | N/A | 30,000 | N/A | text | D | ||
14 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 40小时 | 添加到咨询列表 | DAR_ASR001 | Appen Global | 对话录音 | 达里语 | 阿富汗 | 低背景噪音 | 500 | 2 | 可根据要求提供 | 11,168 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集主要是语音,不包括音乐或广告 | D | |
15 | 音频 | ASR, 自动字幕, 关键字检索 | 麦克风 | 51小时 | 添加到咨询列表 | DAR_BRC001 | Appen Global | 广播录音 | 达里语 | 阿富汗 | 低背景噪音(录音棚) | N/A | 1 | 可根据要求提供 | 可根据要求提供 | N/A | wav | 数据集已完全转录并加上时间戳 数据集主要是语音,不包括音乐或广告 数据类型包括:脱口秀,访谈,新闻广播(不包括主持人阅读的新闻) | D | |
139 | 文本 | ASR, TTS, 语言建模 | N/A | 45,000个单词 | 添加到咨询列表 | amh_ETH_PHON | Appen Global | 发音词典 | 阿姆哈拉语 | 埃塞俄比亚 | N/A | N/A | N/A | N/A | 45,000 | N/A | text | A | ||
138 | 文本 | ASR, TTS, 语言建模 | N/A | 12,000个单词 | 添加到咨询列表 | sqi_ALB_PHON | Appen Global | 发音词典 | 阿尔巴尼亚语 | 阿尔巴尼亚 | N/A | N/A | N/A | N/A | 12,000 | N/A | text | A | ||
130 | 文本 | NER, 内容分类, 搜索引擎 | N/A | 20,774个句子 | 添加到咨询列表 | ARB_NER001 | Appen Global | NER | 阿拉伯语 | N/A | N/A | N/A | N/A | 20,774 | 可根据要求提供 | N/A | text | A | ||
147 | 文本 | ASR, TTS, 语言建模 | N/A | 40,000个单词 | 添加到咨询列表 | arb_N/A_PHON | Appen Global | 发音词典 | 阿拉伯语 | N/A | N/A | N/A | N/A | N/A | 40,000 | N/A | text | A | ||
141 | 文本 | ASR, TTS, 语言建模 | N/A | 15,000个单词 | 添加到咨询列表 | ara_IRQ_PHON | Appen Global | 发音词典 | 阿拉伯语 | 伊拉克 | N/A | N/A | N/A | N/A | 15,000 | N/A | text | 人名 | A | |
142 | 文本 | ASR, TTS, 语言建模 | N/A | 13,000个单词 | 添加到咨询列表 | ara_IRQ_POS | Appen Global | 词性词典 | 阿拉伯语 | 伊拉克 | N/A | N/A | N/A | N/A | 13,000 | N/A | text | A | ||
143 | 文本 | ASR, TTS, 语言建模 | N/A | 48,000个单词 | 添加到咨询列表 | ara_LBY_PHON | Appen Global | 发音词典 | 阿拉伯语 | 利比亚 | N/A | N/A | N/A | N/A | 48,000 | N/A | text | A | ||
140 | 文本 | ASR, TTS, 语言建模 | N/A | 40,000个单词 | 添加到咨询列表 | ara_EGY_PHON | Appen Global | 发音词典 | 阿拉伯语 | 埃及 | N/A | N/A | N/A | N/A | 40,000 | N/A | text | A | ||
114 | 音频 | ASR, 虚拟助手, 聊天机器人 | 移动电话 | 352小时 | 添加到咨询列表 | ARE_ASR001_CN | Appen China | 有定稿的录音 | 阿拉伯语 | 埃及 | 低背景噪音(家庭/办公室) | 627 | 1 | 1,28,908 | 2,07,576 | 16 | wav | 数据集已完全转录 | A | |
146 | 文本 | ASR, TTS, 语言建模 | N/A | 60,000个单词 | 添加到咨询列表 | ara_MAR_PHON | Appen Global | 发音词典 | 阿拉伯语 | 摩洛哥 | N/A | N/A | N/A | N/A | 60,000 | N/A | text | A | ||
113 | 文本 | MT, 聊天机器人, 对话式AI | N/A | 80,544语句 | 添加到咨询列表 | ARY_MT001 | Appen Global | 对话翻译 | 阿拉伯语 | 摩洛哥 | N/A | 180 | N/A | 80,430 | 23,844 | N/A | text | 相应的音频,转录文本,完全可逆的罗马化的转录文本及发音词典见数据集ARY_ASR001和ARY_ASRMT001 | A | |
112 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 33小时 | 添加到咨询列表 | ARY_ASR001 | Appen Global | 对话录音 | 阿拉伯语 | 摩洛哥 | 低背景噪音 | 180 | 2 | 80,544 | 23,836 | 8 | alaw | 每个语料提供者参与了1至4个对话,每个语料提供者由一个记录在人口统计文件中的唯一的4位数的演讲者ID来识别 此转录文件有原始版本和完全可逆的罗马化版本,并附带发音词典 产品转录的英文翻译见数据集ARY_MT001和ARY_ASRMT001 | A | |
115 | 音频 | ASR, 虚拟助手, 聊天机器人 | 移动电话 | 322小时 | 添加到咨询列表 | ARS_ASR001_CN | Appen China | 有定稿的录音 | 阿拉伯语 | 沙特阿拉伯 | 低背景噪音(家庭/办公室) | 227 | 1 | 1,04,574 | 1,56,282 | 16 | wav | 数据集已完全转录 | A | |
65 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 12小时 | 添加到咨询列表 | MSA_ASR001 | Global Phone | 有定稿的录音 | 阿拉伯语 | 突尼斯 | 低背景噪音(家庭/办公室) | 78 | 1 | 4,908 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 | A | |
149 | 文本 | ASR, TTS, 语言建模 | N/A | 17,000个单词 | 添加到咨询列表 | ara_SDN_PHON | Appen Global | 发音词典 | 阿拉伯语 | 苏丹 | N/A | N/A | N/A | N/A | 17,000 | N/A | text | A | ||
20 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 29小时 | 添加到咨询列表 | EAR_ASR001 | Appen Global | 对话录音 | 阿拉伯语 | 阿尔及利亚 | 低背景噪音(家庭/办公室) | 496 | 2 | 可根据要求提供 | 11,327 | 8 | alaw | 数据集已完全转录并加上时间戳 数据集附带一个包含所有转录词的发音词典 在大多数通话中,对话双方(呼入者和呼出者)的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话内容被收集并转录了 | A | |
144 | 文本 | ASR, TTS, 语言建模 | N/A | 11,000个单词 | 添加到咨询列表 | ara_DZA_PHON | Appen Global | 发音词典 | 阿拉伯语 | 阿尔及利亚 | N/A | N/A | N/A | N/A | 11,000 | N/A | text | A | ||
9 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 86小时 | 添加到咨询列表 | CGA_ASR001 | Appen Global | 有定稿的录音 | 阿拉伯语 | 阿拉伯联合酋长国-沙特阿拉伯 | 低背景噪音(家庭/办公室) | 150 | 4 | 42,000 | 19,245 | 16 | alaw | 语音文件内容已完全转录,精确到单词 所有录音均使用了衍生于SpeechDATmodel的方法进行标记 所有转录文件已被加注元音标识 每个语料提供者录制280个语料,语料包括15个人的名字和姓氏(共计30个),10个分开朗读的数字(0-10),随机生成的数字序列(每个序列包含8个数字),200个语音平衡的句子,30个语音平衡单词串(每个单词串包含10个单词) | A | |
148 | 文本 | ASR, TTS, 语言建模 | N/A | 75,000个单词 | 添加到咨询列表 | ara_ARE_PHON | Appen Global | 发音词典 | 阿拉伯语 | 阿拉伯联合酋长国 | N/A | N/A | N/A | N/A | 75,000 | N/A | text | A | ||
122 | 音频 | ASR, 虚拟助手, 聊天机器人 | 移动电话 | 170小时 | 添加到咨询列表 | ARU_ASR001_CN | Appen China | 有定稿的录音 | 阿拉伯语 | 阿拉伯联合酋长国 | 低背景噪音(家庭/办公室) | 133 | 1 | 42,352 | 85,775 | 16 | wav | 数据集已完全转录 | A | |
70 | 音频 | ASR, 呼叫中心, 虚拟助手 | 移动电话和固定电话 | 48小时 | 添加到咨询列表 | OrienTel United Arab Emirates MCA (Modern Colloquial Arabic) | Nuance | 有定稿的录音 | 阿拉伯语 | 阿拉伯联合酋长国 | 低背景噪音 | 880 | 1 | 43,000 | 可根据要求提供 | 8 | alaw | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个语料提供者录制49个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令 | A | |
71 | 音频 | ASR, 呼叫中心, 虚拟助手 | 移动电话和固定电话 | 31小时 | 添加到咨询列表 | OrienTel United Arab Emirates MSA (Modern Standard Arabic) | Nuance | 有定稿的录音 | 阿拉伯语 | 阿拉伯联合酋长国 | 低背景噪音 | 500 | 1 | 24,500 | 可根据要求提供 | 8 | alaw | 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告 每个语料提供者录制49个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令 | A | |
150 | 文本 | ASR, TTS, 语言建模 | N/A | 40,000个单词 | 添加到咨询列表 | asm_IND_PHON | Appen Global | 发音词典 | 阿萨姆语 | 印度 | N/A | N/A | N/A | N/A | 40,000 | N/A | text | A | ||
207 | 文本 | ASR, TTS, 语言建模 | N/A | 100,000个单词 | 添加到咨询列表 | kor_KOR_PHON | Appen Global | 发音词典 | 韩语 | 韩国 | N/A | N/A | N/A | N/A | 1,00,000 | N/A | text | H | ||
59 | 音频 | ASR, 虚拟助手, 聊天机器人 | 麦克风 | 20小时 | 添加到咨询列表 | KOR_ASR001 | Global Phone | 有定稿的录音 | 韩语 | 韩国 | 低背景噪音(家庭/办公室) | 100 | 1 | 8,107 | 可根据要求提供 | 16 | wav | 数据集已完全转录,转录文件有原始版本和罗马化版本 每个语料提供者朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大 与Karlsruhe Institute of Technology (KIT)合作开发 | H | |
208 | 文本 | ASR, TTS, 语言建模 | N/A | 100,000个单词 | 添加到咨询列表 | kor_KOR_POS | Appen Global | 词性词典 | 韩语 | 韩国 | N/A | N/A | N/A | N/A | 1,00,000 | N/A | text | H | ||
132 | 文本 | NER, 内容分类, 搜索引擎 | N/A | 25,830个句子 | 添加到咨询列表 | KOR_NER001 | Appen Global | NER | 韩语 | 韩国 | N/A | N/A | N/A | 25,830 | 可根据要求提供 | N/A | text | H | ||
216 | 文本 | ASR, TTS, 语言建模 | N/A | 30,000个单词 | 添加到咨询列表 | mar_IND_PHON | Appen Global | 发音词典 | 马拉地语 | 印度 | N/A | N/A | N/A | N/A | 30,000 | N/A | text | M | ||
64 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 15小时 | 添加到咨询列表 | MAR_ASR001 | Appen Global | 对话录音 | 马拉地语 | 印度 | 混合 | 180 | 2 | 可根据要求提供 | 11,908 | 8 | alaw | 数据集中大约29%的会话被转录并加盖了时间戳,可以提供完整的转录文本 数据集附带一个包含所有转录词的发音词典 | M | |
110 | 音频 | ASR, 对话式AI, 语音分析 | 移动电话和固定电话 | 52小时 | 添加到咨询列表 | MAR_ASR001A | Appen Global | 对话录音 | 马拉地语 | 印度 | 混合 | 1,000 | 2 | 可根据要求提供 | 11,908 | 8 | alaw | 数据集的部分会话被转录并加盖了时间戳,可以提供完整的转录文本 数据集附带一个包含所有转录词的发音词典 | M | |
212 | 文本 | ASR, TTS, 语言建模 | N/A | 4,000个单词 | 添加到咨询列表 | mal_IND_PHON | Appen Global | 发音词典 | 玛拉雅拉姆语 | 印度 | N/A | N/A | N/A | N/A | 4,000 | N/A | text | M | ||
213 | 文本 | ASR, TTS, 语言建模 | N/A | 10,000个单词 | 添加到咨询列表 | msa_MYS_PHON | Appen Global | 发音词典 | 马来语 | 马来西亚 | N/A | N/A | N/A | N/A | 10,000 | N/A | text | M | ||
123 | 音频 | ASR, 虚拟助手, 聊天机器人 | 移动电话 | 90小时 | 添加到咨询列表 | KHM_ASR001_CN | Appen China | 有定稿的录音 | 高棉语 | 柬埔寨 | 低背景噪音(家庭/办公室) | 94 | 1 | 24,618 | 52,157 | 16 | wav | 数据集已完全转录 | G | |
125 | 图像 | 面部识别 | 照相机 | 13500张图片 | 添加到咨询列表 | IMG_FACE_KEN_CN | Appen China | 人脸 | N/A | 肯尼亚 | 不同背景及光线 | 100 | NA | NA | NA | NA | jpg | K |
应用场景
无论您是在开发语音合成系统、语音识别系统还是其他依赖自然语言的解决方案,高质量的授权语音和语言数据集都能让您更快地进入市场,触达更多的潜在客户群
最新资讯和资源

博客文章
图像标注是做什么的?如何将其用于构建AI?
阅读更多
博客文章
什么是人工智能中的数据标注?
阅读更多
博客文章
人工智能在金融领域的应用存在的4大挑战
阅读更多
博客文章
赋能自动驾驶,澳鹏融合2D/3D数据标注技术支持多样化训练数据需求
阅读更多
博客文章
金融行业投资人工智能技术的关键要素有哪些?
阅读更多
博客文章
人工智能的伦理道德: 负责任的AI构建指南
阅读更多
博客文章
澳鹏打造智能数据标注平台,全面融合全球经验与本地特色
阅读更多
博客文章
如何解决对话式人工智能的数据采集问题
阅读更多
博客文章
用于部署汽车AI项目的全面自动化数据流程
阅读更多
新闻资讯
澳鹏数据科技不断助力AI数据行业的提升和发展
阅读更多
博客文章
人工智能在汽车业应用的五项挑战
阅读更多
博客文章
如何大规模构建成功的计算机视觉应用
阅读更多
案例学习
通过 Shotzr 快速识别哪些图像需要元数据定位
阅读更多
博客文章
激光雷达(LiDAR)技术
阅读更多
博客文章
人工智能和数据安全治理:认证与法规
阅读更多