恩智浦新一代语音识别引擎，开启嵌入式语音控制新时代

恩智浦发布新一代智能语音技术组合的语音识别引擎。本文将探讨开发人员在嵌入式语音控制设计中面临的挑战、恩智浦新的Speech to Intent引擎，以及您如何在应用中使用它。

嵌入式系统中语音命令的挑战

随着亚马逊、谷歌和苹果等公司推出了具有革命性意义的智能扬声器，嵌入式语音控制的设备已经成为了当下的热门趋势，而这种技术其实已经存在了很多年。通过这些智能扬声器，终端用户第一次体验到了语音优先设备的便捷性、实用性。

语音是这些设备的用户界面（UI），也是它们最重要或唯一的交互方式。借助云端的自然语言理解技术，智能扬声器可以让语音优先设备的终端用户用自然语言与智能设备进行沟通，无论是请求、查询还是命令，都可以得到理解和响应。

为了实现自然语言处理，设计人员和终端用户需要面对一些挑战，比如要求有稳定、可靠的网络连接，以及要承受始终在线、始终聆听的设备的高耗电，更别提这种联网设备可能带来的隐私风险了。

本地语音控制vs.云语音控制

为了让设备具备语音控制功能，工程师通常有三种选择：本地处理、在云端处理或两者的组合，我们称之为“混合处理”。

通过本地语音控制，终端设备在边缘本地处理所有语音，而无需连接到云端或远程服务器进行二次处理。基于云的处理就是利用云端的计算能力来处理语音音频，然后把云端生成的响应通过网络传回设备。

在混合处理的情况下，通常会使用本地唤醒词引擎来唤醒设备(如“Hey NXP”)，然后将该唤醒词之后的所有语音命令流式传输到云端或远程服务器进行处理。

本地处理具有低延迟、低功耗和独立于网络等优点，但它通常只支持需要精确措辞的基本关键词和命令。例如，开灯可能需要准确的短语“Hey, NXP（唤醒词），开灯（语音命令）”，不能有任何变化。

对于云端处理和混合系统，云服务的使用增加了延迟，但提供了能够运行极其复杂的算法的优势，包括自然语言理解模型。重温刚才说的开灯示例，使用任何词语组合，系统都可以理解所要求操作的环境，例如“这里很黑，请开灯”。

如前所述，基于云的自然语言处理的一个主要缺点是安全和隐私问题。简单地说，这种方式的原理是把语音音频流通过网络传送到远程服务器进行处理，但是这也可能导致系统误启动并把无关的音频流传输到云端。这些音频流可能包括个人对话、凭证或其他敏感信息。

恩智浦VIT S2I引擎介绍

针对嵌入式设计中的语音引擎难题，恩智浦推出了其智能语音技术（VIT）产品组合的最新产品VIT Speech to Intent引擎。S2I引擎是VIT产品组合的高端产品，其中还包括免费的唤醒词引擎 (WWE) 和语音命令引擎 (VCE)。

与依赖远程云服务的系统不同，VIT S2I能够在本地确定自然语言的意图。这一功能要归功于恩智浦针对嵌入式系统设计的神经网络算法和机器学习模型的最新开发成果。因此，要实现“开灯”的目的，可以用很多不同的方式来表达，比如“开灯”、“太暗了”和“你能让光线更亮吗”等。

展开全文