构建多语言语音库

DataForce 为全球音频硬件领导者提供高质量数据以支持其 ASR 引擎的微调。

问题

自动语音识别 (ASR) 系统可以将用户命令转换为文本,然后由自然语言处理系统进行处理。要有效实施 ASR,需要考虑几个方面,例如不同性别、年龄组、口音和方言的声音和语音差异,以及与使用 ASR 系统的环境相关的背景噪音。在这种情况下,客户需要从英语、印地语、德语、法语和意大利语的多个人口统计群体收集培训和测试数据。

解决方案

DataForce 使用我们专有的移动应用程序 DataForce Contribute 在多个场景中收集语音数据和背景噪音。我们的应用程序确保音频文件符合所有技术要求,例如信噪比和采样率。在收集停车、驾驶和窗户打开/关闭条件下的所有语音命令和环境噪音后,对声波进行卷积有助于创建模拟真实环境的数据集。借助 DataForce 的解决方案,客户开发并测试了一个高效的 ASR 引擎,该引擎能够在不同场景下理解多种语言的语音命令。

Audio Wave