科大讯飞副总裁朱家泉：用AI提升家庭智能化的想象空间

本刊记者/朱亮

编者按

物联网通过AI的赋能，正在催生各行各业新的机遇，面向炙热的智能领域，AI巨头们各自都有着独特的洞见。我们知道整个智慧家庭领域，讯飞主要是以AI能力赋能为核心，整合合作伙伴单品、系统以及多场景功能，通过产业链角色之间的优势互补且实现合作共赢，最终面向行业进行整体的解决方案输出。其核心的整合秘诀就是AI，这也是讯飞的能力与责任。智能头条前线记者在采访科大讯飞副总裁朱家泉先生中，他多次表示智慧家庭可以想象的空间仍然很大，AI在智慧家庭中的应用依然需要继续做深做透。

朱家泉

科大讯飞副总裁

用人工智能有温度地赋能，做智慧家庭的奠基者

今年以来，科大讯飞在各项核心技术上取得了创新突破，刷新语音、图像、认知多个领域的世界纪录，持续引领人工智能发展，源头创新，推动AI技术赋能。在第四届世界声博会暨2021科大讯飞全球1024开发者节上，科大讯飞发布了“讯飞开放平台2.0战略”、“虚拟人交互平台1.0”和《1024计划5.0》，从单点应用突破到系统性创新，科大讯飞正持续打造人工智能创新策源地，让人工智能真正触手可及，实现对世界更有温度地赋能。

我们看到，目前人工智能已经广泛应用到各个领域，一直以来讯飞人工智能有两大兑现方向，一是用人工智能的技术来改变人们的生活，让人机交流没有障碍；二是通过“大数据+行业专家+核心算法”的模式，用人工智能赋能各个行业，AI学习专家知识辅助各行各业的工作者，让所有人能够达到行业专家的水平。

人工智能的规模深耕期已然来临，针对人工智能兑现红利，讯飞也提出三大标准：一是具备真实可见的应用案例，二是规模化推广的应用场景，三是可用统计数据证明的应用成效。

基于人工智能的两大方向与三大标准，讯飞铺开了对智慧家庭的深度思考,提出AI赋能智慧家庭生态的“1+2+N”战略，开启未来家庭平台的构建之路。

1个核心指讯飞iFLYHOME OS平台。我们的平台具有海量语音内容服务、核心能力定制优化、全屋智能多场景联动方案、全屋智能安全保障等优势，可以为用户提供更智能、更人性化、更便捷的智慧家庭体验。

2个能力指向外的能力输出，一方面AI能力赋能，AI赋能“能听会说，能理解会思考”；另一方面是互联能力赋能，AI互联打破信息孤岛，让AI无处不在。

N个场景是指在办公、康养、家庭、教室、酒店等各种物联网场景应用，满足不同场景的差异化需求，实现不同场景的定制化打造与融合。

平台是核心，

需要深挖细分场景交互

以及千人千面定制能力

从目前智能家居的趋势来看，未来每个家庭都会有一个专属AI管家，我们想做的就是去打造属于每个家庭的AI能力，形成家庭中无处不在的交互、无处不在的关怀、无处不在的服务。

从感知智能到认知智能，家庭智能化具有很大的想象空间。智能硬件的产品形态可以从智能电视、语控面板、智能音箱延伸到智能可穿戴、医疗健康设备、家庭机器人等领域。另外，全屋智能的人机交互势必不止语音一个模态，可以加入视觉、动作、感官等多模态交互和多模态协作，让家庭AI成为一个可以被看见、可以互相对话、可以长久陪伴的“身边人”。

同样，智能家居信息服务展示平台在家庭智能化中扮演着核心且重要的角色。平台可以依托面板、传感器、芯片等硬件载体，与VR/AR相结合，通过本地AI能力和边缘计算的发展，完成家庭内部互联系统的构建。例如我们入户进门的时候，离电视很远，没法获取更多的信息，这个时候我们不仅可以通过面板进行交互，也可以通过全息进行交互。

当然目前家庭智能化还属于初级阶段，我们需要不断挖掘用户的需求，培养客户的使用习惯，去打磨好配套的产品与服务，逐步做相应的演进。

讯飞家庭智能化服务是基于电视大屏来进行拓展的。电视这一硬件形式不能做到和手机一样长待机，核心原因是电视的属性在于影视娱乐为主，但影视娱乐不是常在线的需求。消费者的下一步需求，在可视大屏上集成影视之外更多高频次的需求，可视大屏才可能做到随时唤醒。

对中国的家庭来说，最典型的场景就是“一老一小”。针对老人，更多的是满足康养、亲情、娱乐的服务需求。人口老龄化日渐严重，构建养老服务体系已势在必行。老人通过电视大屏可以实现心率血压等健康检测、慢病管理、疾病自查、在线问诊，然后还有一些老年人出行服务辅助，还有居家养老的娱乐需求。针对儿童的成长学习场景，电视大屏可以实现语言学习、虚拟人交互、认知世界等服务，我们可以持续探索美术、科学类素质教育产品。双减政策下，教育主阵地回归课堂和家庭，家庭场景下的学习是课堂学习的有利补充。大屏有保护视力、网络纯净的优势，对儿童的健康成长来说具有很大的保护力。

能力是基础，

不仅要AI赋能能听会说，

更要AI互联打破孤岛

AIoT新时代下，讯飞也在思考如何通过关键技术用赋能型生态惠及智慧家庭，跨越应用鸿沟，乃至打破行业壁垒。

首先，在2019年，科大讯飞推出iFLYHOME OS新平台，对原有的语音平台进行了一次全新升级。iFLYHOME OS是基于家庭场景及智能终端开发的AI多模态人工智能操作系统。在全屋智能上，采用协议开放实现智能家居设备语音控制的方式。

新平台衍生出讯飞的家庭智能化的两大切入点：一是AI赋能行业合作伙伴；二是做行业整合。

基于讯飞与运营商多年的合作基础，讯飞首先面向运营商合作，将AI的能力与运营商的产品融合形成产品解决方案。随着5G基站建设的开展和家庭宽带网络的普及，运营商作为我国家庭通信基础设施的建设者和承载者，具有发展智慧家庭业务的独特优势。

在场景赋能上，以讯飞与运营商的合作为例，目前运营商的全屋智能布局主要是家庭宽带设备为主，附带一些泛智能终端产品，相当于积木式搭建的智能布局。家居控制融合的前提是生态融合，因此运营商花大力气迭代机顶盒，讯飞在其中助力机顶盒具备语音交互的智能化功能。通过AI平台能力的开放，让更多的智能家居合作伙伴设备接入机顶盒的控制，这也是科大讯飞作为整体解决方案角色的思路。

家庭场景下的核心能力提升，

为家庭智能化的深度布局保驾护航

如何更好地服务家庭用户？针对智慧家庭诸多细分场景的个性化定制需求，讯飞的核心能力也进行了一系列升级优化。

例如语音识别方面，复杂的语音交互环境下，家庭聚会场景下有很多噪音，交谈的噪音、电视背景声音的噪音、儿童玩耍的噪音。在强噪音环境下，如何准确识别发声人的说话和需求，讯飞通过不断创新的核心算法，可以将这种复杂条件下的错误率从46.1%降低到30.5%，世界遥遥领先。（数据来源：2020年5月国际权威英文语音识别大赛“CHiME-6”）

语音合成方面，随着技术的迭代，只需要录制一句话，讯飞通过技术就可以模仿出录制者的音色。这个技术应用在儿童陪伴机器人中，可以让机器人学习家长的声音，然后再用家长的声音给孩子读绘本、读故事、读文章。这样的场景下，儿童和家长都会拥有更好的体验感，这种AI赋能实际上也拓展了整个智慧家庭的场景应用。

声纹识别方面，科大讯飞针对硬件和用户人群需求也做了很多的定制化内容，支持1-1和1-N的身份识别鉴定。例如针对声音、音色不一样的老人和儿童，智能家居语音识别的模型也进行了相应的定制化。

当然，技术的应用和落地也伴随着许多挑战。家庭智能化已经不是简单的指令和反馈的关系，是需要深度思考和布局的结果。行业迈开的第一步是取代物理按键，我们还有很长的路要走。

空间智能化迁移不断拓展，

AI与行业的深层次融合势在必行

目前用户对智能家居的认知已升级至家庭场景方方面面，对照明、安防、看护、娱乐、安全等模块和功能需求逐渐明晰。那么，要做好智能家居软硬件方案，除了需要搭建融合行业生态协议的AIoT平台外，还需深入分析各场景需求。

实际调研发现，在办公、康养、家庭、教室、酒店等各个场景中，对智能照明、舒适环境、入侵报警、紧急求助等系统存在不同程度的需求，打造各类场景化软件系统势在必行。同时，根据用户群体对智能硬件的需求、可接受程度，构建生态产品智选库，结合软硬件实现智能家居场景模块化解决方案，实现积木式选配，可以满足各大场景需求，实现空间智能化迁移。

因此，在讯飞的“1+2+N”的生态构想中，我们希望用人工智能满足更多场景的差异化需求，寻求不同场景下的最佳解决方案，助推AIoT场景化落地。

例如，酒店场景下，讯飞可以提供智能客房控制、移动端AI助手、酒店虚拟前台等数字化运营能力，满足差异化服务；会议场景下，讯飞可以提供语音翻译转写、自动会议纪要、会议大屏及摄像头等会议终端的场景联动服务，实现高效办公管理；教室场景下，讯飞通过打造“教学平台+硬件智控”，实现教学屏幕联动全教学场景，把控过程化数据，实现因材施教。

智能家居的未来交互：

多模态融合的交互开启新叙事

未来是AI的时代。科大讯飞一直把“让机器能听会说,能看会认,能理解会思考,用人工智能建设美好世界”做为自己必须要坚守的使命。

当前我们做到“能听会说”还远远不够，还要让设备能够去理解人类的意图。在“会思考”的领域中，逻辑推理是目前人工智能最难的一个领域，面对无先验知识的常识推理领域，AI往往无法回答和理解，所以通用人工智能才刚刚起步。针对智能家居领域的AI认知，核心是将所有设备安装智慧的耳朵，比如支持近场语音识别的蓝牙语音模组，又例如支持远场识音、同时支持回音消除以及声源定位的多麦克风阵列模组。

信息输出方面，人跟物交流，人跟人交流，最好的信息输出模块是靠语言将需求告诉给对方，但是智能设备，再把信息反馈给人类，80%还是要依靠视觉，基于强视觉呈现的语音交互是未来智能家居极其重要的交互方式。

朱家泉表示他一直秉持极具未来的智能家居理念，智能家居是一个在特定环境下向用户进行信息传递和交流的场景，在这种情况下，基于强视觉的语音交互是未来智能家居和智能家电发展的路径。当语音在复杂的环境下难以进行识别操作的时候，语音可以结合图像、手势、声纹等实现多模态融合交互，就能实现任何场景下用户实时与设备的交流。

任何技术都不能纸上谈兵，都需要切实可行的落地场景。我们知道，人脸、人形已经是常态AI图像识别，通过声音和语音的多模态融合交互，确实能够实现更加深入的场景。例如室外枪型摄像机可以判断玻璃的破碎声、老人摔倒和异样图像，家里云台摄像机可以检测孩子哭闹、保姆虐待父母以及相应的人形捕捉。“能看会认”的核心需要摄像头进行捕捉人的变化，不过这也涉及到一个用户隐私问题，好在目前主流摄像头几乎都设计了物理可关闭功能。

展望未来，

讯飞将与更多的行业伙伴携手共赢蓝海市场

中国市场的容量足够大，不会存在物联网寡头经济。我们可以看到AIoT行业上下游的企业已经开始向云平台、芯片、终端、技术等方面拓展，未来产业链竞争的焦点或在于数据、核心能力芯片以及用户。每个AloT行业入局者都有自己的规划布局和拓展方向，讯飞想做的是坚持平台+赛道的模式来触达更多的合作伙伴。我们有理由相信，底层核心技术支撑和良性生态构建并举的企业能够在这片蓝海中成长为真正的行业掌局者。

针对目前讯飞在做的86型语音面板，朱家泉最后表示，科大讯飞一直在思考如何与全场景进行联动合作。通过最新打造的86型语音面板，讯飞希望合作伙伴可以利用讯飞的AI创新硬件将产品的能力做的更强更大。即使不使用讯飞的面板，讯飞也很乐意将自己的AI核心能力整合成一站式智能化解决方案输出给第三方面板厂商，与合作伙伴共同促进行业整合与进步。

随着5G全千兆、人工智能的加持，下一阶段智能家居一定会朝着高速发展的阶段迈进。讯飞非常希望能够与合作伙伴一起秉承着开放、共赢、合作的态度，携手共建我们新时代下的智慧家庭新生态。

采访手记

讯飞在产品应用一直极具战略针对性，例如在语音遥控器上使用蓝牙语音芯片，在智能家居产品中使用麦克风阵列+语音AIoT芯片的模式，在处理复杂全屋智能系统的AI能力的时候，还会配上主芯片进行共同计算。

除了AIoT算力支持以外，通过iFLYHOME OS语音操作系统，与用户本身的操作系统不冲突，可以赋能更多的智能设备，让后端的信息服务理解能力更强。因为讯飞知道，仅有芯片和算法是不够的，需要在理解之上展现给客户，通过OS进行赋能，我们看到讯飞在电视机、机顶盒厂商已经做出了很全面的赋能。

未来只要有屏幕、可视化、带语音的设备，都可以进行讯飞的AI赋能，这就是科大讯飞为整个智能家居行业带来的生意经。全产业链合作伙伴也希望携手讯飞一起通过AI来改变中国亿万家庭的数字生活。

展开全文

安装智能头条APP 看数小智行业点评

为您推荐