提高广播新闻自动语音识别模型的准确性

语音识别技术的存在让机器能够听懂人类的语言,让机器理解人类的语言。语音识别技术发展至今,已经应运而上了各种各样的语音智能助手,可能有一天我们身边的物体都能和我们说话,万物相连的时代也如期而至。

数据从何而来?

IBM在语音识别领域的最初工作是美国政府国防高级研究计划局(DARPA)有效可负担可重复使用语音转文本(EARS)计划的一部分,该计划使语音识别技术取得重大进步。EARS计划从电视节目的隐藏式字幕中产生了约140小时受监督的BN训练数据和约9,000小时的监督很少的训练数据。相比之下,EARS为电话会话语音(CTS)生成了大约2,000个小时高度监督的、人工转录的训练数据。

转换障碍?

由于CTS有大量训练数据可用,因此IBM和澳鹏的团队致力于将类似的语音识别策略应用于BN,以了解这些技术在各个应用之间的转换情况。为了解团队所面临的挑战,有必要指出两种讲话风格之间的一些重要区别:

广播新闻(BN)

  • 清晰、音质精良
  • 演讲者种类繁多,说话风格各异
  • 充斥各种背景噪音环境,身处现场的记者就是例子
  • 涉及各种各样的新闻话题

电话会话语音(CTS)

  • 通常音质差,有声音伪影
  • 无底稿
  • 会话参与者语音穿插,有交叠时刻
  • 有中断、重复字句、会话参与者之间的后台确认,比如“okay”、“oh”、“yes”等

人们在和一个电话座机对话
团队如何将语音识别模型从CTS调整为BN

团队调整了语音识别系统,成功地将其用于EARS的CTS研究:将多个长短期记忆(LSTM)和ResNet声学模型,以及单词和字符的LSTM和卷积波风格的语言模型,在一系列声学特征上进行了训练。在之前的一项研究中,特别是由语言数据协会(LDC)进行的HUB5 2000英语评估中,该策略在通用类型系统(CTS)的准确度介于5.1%至9.9%之间。团队在BN数据集上测试了此方法的简化版本,该版本并非人工标注,而是使用隐藏式字幕创建的。

团队没有添加所有可用的训练数据,而是精心选择了一个可靠的子集,然后训练LSTM和基于残留网络的声学模型,并在该子集上结合了N元组和神经网络语言模型。除了自动语音识别测试外,团队还针对自动系统进行了基准测试,以澳鹏出品的高质量人工转录本为基准。所有这些模型的主要语言模型训练文本总字数达3.5亿,分别来自于适合广播新闻的不同公开资源。

实验进程正式开始

在第一组实验中,团队分别测试了LSTM和ResNet模型以及N元组和FF-NNLM模型,然后将两种声学模型的评分与原来的CTS评估结果进行比较。与原始CTS测试的结果不同,合并LSTM和ResNet模型的评分后,单词错误率(WER)并未显著降低。单独使用N元组LM的LSTM模型表现很好,添加FF-NNLM模型后,其结果进一步改善。

第二组实验采用LSTM+ResNet+n-gram+FF-NNLM模型解码后生成词网格。团队从这些词网格中生成n个最佳列表,并使用LSTM1-LM对其重新评分。LSTM2-LM也被用来重新独立划分词网格。使用LSTM LM后,发现WER显著增加。研究人员据此推测,使用BN特定数据进行二次微调,使得LSTM2-LM的表现优于LSTM1-LM。

研究成果

我们的ASR结果明显改进了最新表现,与过去十年开发的系统相比,也取得了重大进展。与人类表现相比,ASR绝对结果大约要差3%。虽然机器和人的错误率具有可比性,但是ASR系统替代率和删除错误率要高得多。

研究团队分析了不同的错误类型和错误率,得出了一些值得关注的结论:

  • ASR和人类删除、替换和插入的单词有很大的重叠。
  • 在标记犹豫情绪时人类似乎很小心:在这些实验中,%犹豫情绪是插入最多的符号。在人类转录中,犹豫情绪似乎是表达句义的重要环节。然而,ASR系统侧重于盲识别,并未成功地传达相同的含义。
  • 机器在识别短小虚词方面有困难:the、and、of、a、that和these删除得最多。而人类却似乎能捕捉其中的绝大部分。这些词似乎没有完全表达出来,所以机器无法识别它们,而人类却能够自然地推断出这些词。

研究成果

实验表明,语音ASR技术可以跨域调用,提供准确度高的转录。研究证明,对于声学和语言建模,基于LSTM和ResNet的模型是有效的,而人工评估实验使我们保持诚实。也就是说,尽管我们的方法不断改进,但在人类表现和机器表现之间仍存在差距,这表明,广播新闻的自动转录还需要继续研究。

澳鹏的成品语音识别数据集

成品数据集是一种高效、低成本的工具,可通过高质量的训练数据快速启动人工智能或机器学习项目。数据集通常的交付时间在一周之内,而全新的数据集采集和标注项目根据其复杂程度,则通常需要8到12周的交付时间。与传统方法相比,OTS数据集缩短了实现价值的时间,并以较低的总成本提供了对高质量数据的使用权。所有澳鹏Appen数据集都采用完全透明的方式进行开发,确保数据安全且合规,从而助力高质量、负责任的AI部署。

本次更新的数据集包括人体运动和婴儿啼哭声,以及市场需求量高但通常难以获得的语言(如阿拉伯语、克罗地亚语、希腊语、匈牙利语、泰语等)的脚本化语音和带有可识别文本的图像。全新数据集的加入使澳鹏的数据集总数达到250+个,包括11,000+小时的音频、25,000+张图像以及涵盖80+种语言及方言的870万+个单词。

Language