语音分割工具
语音分割是指标记语音信号的开始时间和结束时间,划分语音中句子、单词、音节等的边界。根据算法要求的不同,语音分割标注有很多种不同的标注方式。片段分割工具
分割时,根据是否有实际说话内容,可以将音频分割为有效和无效片段。对无效片段,根据算法要求,可以选择两种不同的处理方式:- 分割出无效片段,并可以对无效片段打标签,如噪音、背景音乐、音量过小等;

多人谈话的处理
当一段语音中同时有多个说话人说话时,会有不同的分割方式:根据主说话人的语音内容分割,有多个说话人同时说话时,只分割出主说话人的语音;或独立分割每个说话人的语音内容,不同说话人的分段可能会有重叠。
高精度标注工具:刻度、量尺等
在实际项目中,通常要求切分时间点与第一个音节的开始时间只相差几百甚至几十毫秒,这对于标注工具及人员操作的要求较高。澳鹏Appen标注工具可提供刻度、量尺等功能,辅助达到高标准的标注精度要求。算法辅助功能
澳鹏Appen标注工具还可以使用语音分割算法对数据进行预处理,使得实际标注时只需要在预处理的基础之上做出调整即可,大大提高标注效率和速度,降低成本。语音转写工具
语音转写是将分割出的每个语音段里的内容转写成文字。除了转写出文本外,还可以给语音设置属性标签、文本标签等,以满足语音分类、情绪判定等不同标注需求。 由于不同说话人的语速、说话清晰度等都不尽相同,因此标注工具需要支持不同的播放速度设置,以及不同的语音播放模式。文本标签功能
在分割出语音片段后,工具支持给每个片段选择不同的属性标签,如说话人、情感、内容分类等等,可用于对语音内容的分类;在转写文本中,工具亦支持进一步在文字中设置停顿、强调、疑问等文本标签。
算法辅助功能
同样地,语音转写工具也具有算法辅助功能:标注员完成音频分割后,可通过算法预转写语音内容,并在预转写结果的基础上进行修改。