首页 / 观点 / 专访科大讯飞张陈:构筑多模态方案 持续获取智能语音交互最优解

专访科大讯飞张陈:构筑多模态方案 持续获取智能语音交互最优解

数智网记者:朱亮

zhangchen2019032501
科大讯飞智能硬件平台总经理 张陈

随着智能家居细分市场对语音需求的不断崛起,人工智能巨头科大讯飞先知先觉,在多年积累的先发优势下,推出在线+离线的智能语音解决方案,可以满足从四麦、到双麦、再到单麦的不同需求,实现成本从高到低,性能满足各个场景需求的多维解决方案。

目前市面上的语音交互普遍可以做到95分的体验感,但是科大讯飞可以做到98分,3分的差距是多年技术的累积成果,讯飞正在引领整个物联网行业,迈向趋于100分的语音体验时代。《智能家居》杂志有幸采访到科大讯飞智能硬件平台总经理张陈先生,与大家分享科大讯飞下一阶段在智能硬件细分领域的应用方向。

从高端概念渗透到各类产品线

创新企业不断研发创新硬件,近几年经过资本层的市场推动异常活跃,诞生了海量的智能硬件单品、机器人与音箱等产品。

传统家电企业的AI布局,往往看到更多停留在概念层面。传统制造业在AI应用方面,一直在做非常高端、概念性的智能产品。

今年特别能够感受到传统家电巨头对AI技术的执着,也开始从高端往中低端产品线尝试渗透落地。在2019年的家电博览会AWE上,果不其然,所有家电企业都在布局全系列的语音、图像等应用。

zhangchen2019032502
AWE2019海尔冰箱展区

针对性的细分应用解决方案

科大讯飞智能硬件平台总经理张陈先生推测,19年语音在传统行业会大规模起量,所以科大讯飞开始针对性地推出一直储备的产品和方案。例如在线+离线混合的四麦克风,在线+离线混合的双麦克风,还有仅离线的双麦克风等产品。

以上麦克风解决方案,从性能上可以满足复杂的场景。例如比较大的房间有5米交互需求,可采用四麦、六麦方案,算法复杂度较大,在大空间中可实现远场语音交互;在相对大一点的中等卧室里、客厅里,中等解决方案也能起到比较好的效果;还有一些小的空间,如小的卧室、厨房等区域,不需要五米的语音距离,一米、两米足以应对,采用两个麦克风,甚至单个麦克风都可以满足用户需求。

从距离上来说,目前四麦可以实现五米距离控制,双麦实现三米距离控制,单麦在高噪音情况下,可以满足一米的语音控制需要。在线和离线的双模处理方式,在线的版本主要可以满足有信息检索需求的设备,例如冰箱、烟机等信息的终端,可以查一些菜谱、进行搜索等功能。

zhangchen2019032503
科大讯飞智能家电行业解决方案

除了在线方式以外,为何家电设备需要一些离线的解决方案?因为对于家电产品来说,有些时候很多联网的Wi-Fi设备,激活率并不是很高。对于普通用户,例如四五十岁的用户来说,Wi-Fi配置有一定的难度,而语音交互是强需求,也是非常容易掌握的一项技能。所以说,通过语音发出简单指令控制可提升家电交互体验,离线本身足以满足这个需求。

科大讯飞目前提供的在线/离线解决方案,可以实现从四麦、到双麦、再到单麦的各类需求,实现成本从高到低,性能满足各个场景。同时针对离线方案有着高、中、低的不同配置,最高性能的方案可以支持3000个命令词,其中还能实现命令词的语法与句式,实现类似在线的效果,在高端情况下不用联网,也可以实现非常自由的对话;最低端解决方案,可以做到单个麦克风配10个命令词,例如实现照明的开灯与关灯;而中端的解决方案,可以让双麦克风配合100个命令词,能够满足一些高性能的场景,在保证成本的同时,又可以在高性能要求下,实现苛刻的语音场景。

核心优势是算法,硬件载体不挑剔

无论是适配所有家电品类的语音解决方案,还是面对所有成品级的智能语音产品,讯飞最核心的是算法和软件,也努力构建完善设备之间的交互逻辑,对于硬件本身的载体不挑剔。

科大讯飞针对不同细分领域的语音解决方案,已经搭建出29个应用平台,可以实现成本从高到低,通过不同性能的搭建,满足不同的语音场景需求。同时,讯飞与周边合作伙伴合作,尤其与合适的芯片平台做深度储备,从更底层的维度切入到市场中,服务好共有的客户。

讯飞智能硬件平台过去两三年一直在深入研究,如何提供给客户更加高性能且低成本的解决方案,将讯飞的能力进行高低组合是最优解。目前针对家电品类的四个语音方案,只是大家看到的冰山一角。

家电+语音:爆发的元年

通过近几年的AWE展会我们可以看到,科大讯飞与许多家电企业都在家电智能化方面进行合作,海尔、美的等品牌的主流品类,如空调、冰箱、电饭煲等,都做了智能语音升级。2020年大家都体会到量的爆发,现在还看不到具体的量。

zhangchen2019032504
与科大讯飞合作首发的九阳智能电饭煲

智能音箱通过海量的补贴政策,让普通老百姓普遍接触到智能语音与智能家居硬件,从今年年底开始,随着国家政策的倾斜,工信部、发改委提出的消费升级与家电补贴,将都是市场放量的巨大机会。

在AI+IoT时代的赛道路径上,讯飞最核心的依然是供应技术,将语音体验提升到新的高度。智能家电与智能创新硬件不同,如果家电搭载语音后体验不佳,对用户以及市场的伤害会非常大。讯飞一直扎根于智能语音的大本营,坚持将技术打磨到最佳体验,同时融入到能够走量的产品中,以此来推动智能语音的广泛应用。当然随着用户越来越多,压力也会更大。
讯飞做技术输出的本身就是平台性企业,iFLYOS平台一直都希望也在做整套的解决方案,与其他物联网平台的基因相似,例如和海尔的U+平台,就存在许多互补性。

基于对未来物联网的判断,需要专业的人做专业的事情,目前IoT分工还尚未明晰,虽然目前产业链条中的部分企业,也想自己去做智能语音,但语音其实属于又苦又累的核心技术活,未来的市场分工需要充分的协作度,这也是科大讯飞的优势和机会。

全链条服务下的前端与后端延展

科大讯飞一直在构建全链条的服务,例如通过iFLYOS把讯飞的能力做延展,前端的语音交互配合后端的内容,会将体验做得更加顺畅。以电视解决方案为例,电视剧“芈月传”上线,讯飞就需要实时的把这个词优化掉,用户说“芈月传”,立马会识别出来。

讯飞做iFLYOS的目的,就是把前端核心技术的交互部分往后再延展,同时接入IoT中。

语音交互+物联网+连接,将语音场景式的体验做到极致。

讯飞也一直在找智能语音的落地点,通过对人机交互的深刻理解,讯飞在智能语音行业一直保持领先,提出了许多前瞻性的行业概念,在交互层面给予物联网产品和智能硬件产品保障了最好的用户感知与体验。

家电是老牌经营企业,全是竞争利润说话。语音等功能加入后,如何权衡功能、亮点,其实对于他们来说是很严肃的事情,如果市场验证成功会逐渐迭代。对于冰箱、空调本身的功能,家电厂家对用户的理解比科大讯飞更深,我们保持贴身服务家电企业,一起去挖掘更深的需求,持续打磨交互体验。

语音体验够用就好

技术不一定越炫酷越好,只要够用就好。

人与人对话交流,超过3米也许已经不想交流。所以消费者在使用智能硬件的时候,也有着类似的心理,不需要智能硬件在太大范围内具有复杂技能。

语音真正的技术核心,最后拼的是最后的两三个点的差距。现在市场已经过了基础认知阶段,消费者使用时不会再眼前一亮,但是当语音功能体验成为用户真正生活痛点的时候,便会追求更极致的体验。

语音输入法很容易做到95分,但是95与98之间的体验差距非常大,例如语音输入转文字,95分需要改两次,98分只需要改一次或者不改,100字的文字有两处错误,还得移动光标删一删修改,改两次与改一次的差别体验依然很大。这种细微的体验,也会延伸到语音上,高频次使用后就会有很大的体验差别,这也是科大讯飞的优势。

从平台到定制,把软件做到极致

面向智能硬件,讯飞从平台开放到针对某个行业去做深入定制优化,是未来的发展之路。

依照市场的阶段性决定,讯飞智能硬件平台目前提供的平台级解决方案,已经可以满足合作伙伴的需求,各个行业对于语音的挖掘还没有那么深,当真正需要把产品打磨到极致的时候,平台提供的功能就无法满足,将会深入到细分产品的细分场景中。

讯飞的核心依然在软件的分发优势,魔飞智能麦克风之所以会诞生,是因为不能拿客户当小白鼠,需要一个硬件产品将自己最核心的技术装进去,持续去打磨它的体验,我们希望将软件放在冰箱、面板、音箱里,都能实现与魔飞一样高标准的智能交互体验。

在目前的发展模式中,讯飞没做入口级的硬件产品,而是坚持做解决方案提供商,因为设备互通后的联动才能实现个性化,才能将交互体验做到更加智能,实现多模态的交互。如果仅有语音的数据太单一,很难把体验做到极致。例如用户走进厨房中,如果有位置信息,直接进入到决策系统,系统就会知道主人进厨房,这个时候只需要说“开灯”而不是“开厨房灯”,没有这种连接的逻辑,很难把体验做更上一层楼。

用户的“痛点”与“痒点”

根据语音划分的产品定位不同,有些是控制类的,有些是信息类的,需求来自于两方面,一个市场,一个是用户。
例如控制类产品,用户与风扇聊天不是刚需,只需要把控制做好,例如风扇的场景,用户快睡着了,不想起床关闭,语音就是最佳解决方案。这不是痛点,而是非常痒的痒点。

对于客户的需求,消费者其实都是后知后觉的,被市场教育之后,才会知道功能性体验变革的存在。客户有刚需,政策有导向,才会催生企业做选择与布局。

对于信息类产品,在信息检索层面,例如附屏音箱、附屏冰箱都是带屏的而且有搜索入口基因。用户可能随时有信息检索需求,PC时代只有电脑,有了手机之后就只有手机,而物联网时代,在技术条件具备的情况下,例如冰箱有屏,用户就会有检索需求。信息交互类的需求,在不同的时空之内,任何的地方都想去获取信息,而且能发出信息,物联网越往后发展,这个痛点需求就越迫切。

物联网设备都能上网,每个设备都集聚了大量的信息,这些信息如何与用户沟通?例如烟机连上Wi-Fi以后,烟机上带有大量的信息,云端给它带来信息,同时烟机也会给云端带信息,这些信息不会在网络传来传去就结束。

物联网的信息最终还是要流向人,不可能只通过手机流向人,或者通过PC流向人,物联网终端也需要有流向人的方式,其实语音和屏幕都是最便捷的方式。

科大讯飞积累了多年的智能语音方案,针对客户的需求,在平台性的产品与方案沉淀的时候会考虑到更多的技术难点,如烟机的降噪、烟机的结构、声学的角度等,从而通过讯飞的算法,实现更优的降噪优化体验。对于语音生态的规模延展,是用户需求与客户需求的共同迭代。

语音的精妙之处,在于直接穿透多层应用,一句直达。讯飞会围绕智能人机交互,围绕物联网时代的人机交互,做更极致的智能交互体验。

采访手记

通过高、中、低不同的打法,进行细分市场的深度切入,科大讯飞的姿态非常英姿飒爽。讯飞一直围绕核心算法优势,坚持对软件精细打磨,不断获取语音体验的新高度。非常欣赏讯飞对硬件载体不挑剔的态度,相信在“三分体验”之差的未来,在高频交互的AI时代,贴身满足亿万用户的定制化要求,非讯飞莫属。

展开全文
安装智能头条APP 看数小智行业点评

为您推荐

返回顶部