首页 / 市场 / 百度技术沙龙展示智能语音技术新突破:识别率近97%

百度技术沙龙展示智能语音技术新突破:识别率近97%

随着语音识别技术日臻成熟,我们在日常使用各种智能设备时已经越来越多地可以借助于语音识别技术来简化我们的操作。近日,在语音识别技术领域深耕多年的百度举办以“智能语音技术,简化你我日常生活”为主题的技术沙龙,来自百度开发者中心的语音专家分享了百度在智能语音上的相关成果和进展。目前,借助多种最新技术的运用,百度语音在通用文本安静环境普通话识别率结果已经提升到接近97%的水准,处于领先地位。

128836189

百度语音技术最新进展:普通话识别率接近97%

据介绍,百度语音团队成立于2010年,到2013年就已经完成从无到有的华丽转变,搜索、地图、输入法、音乐、浏览器等多款产品均已搭载百度语音技术。在服务百度自家产品和应用的同时,百度语音部门还面向开发者开放诸多特殊技术,其中包括最关键的语音识别技术和语音合成技术。

百度技术大会 百度技术创新

百度语音技术部高级项目经理关勇介绍,百度语音识别技术主要涵盖长文本语音输入、短语热词识别、交互式对话垂直领域识别等场景,开发了基于听觉感知DNN声学建模技术,超大规模语言模型技术,海量数据语言模型动态更新技术和高速动态WFST一遍解码技术等,百度语音的识别功能已经在业界迅速树立领先地位。尤其是基于听觉感知DNN声学建模技术,使其语音识别率显著提高,最新的LSTM建模和CTC训练在语音建模中的应用,将通用文本安静环境普通话识别率提升到接近97%,远超同类竞争产品。而包括麦克风阵列及信号处理技术、成熟的handfree唤醒技术等最新进展也已经在车载场景语音交互中(如百度CarLife)上得到运用和体现。

在语音合成技术方面,百度则在海量文本信息处理技术、基于LSTM的韵律建模技术、基于LSTM的声学参数建模技术、弹性拼接单元挑选技术等方面取得了重要突破,完成了业界领先的拼接合成和参数合成系统,并提供完美体验的离在线融合语音合成服务解决方案。在此基础之上,百度语音在2015年10月底还隆重推出了情感语音合成技术,让声音合成摆脱平铺直叙,使用户体会更自然的发音,更丰富的情感和更强大的表现力。目前该技术已经在手机百度小说频道上线,用户可以在wifi环境下体验在线情感男声的小说播报。

开放百度语音平台,重点打造车载、家居方向解决方案

现场,百度语音开放平台首席产品经理穆向禹详细介绍了百度语音技术的应用场景,并重点介绍其在车载、家居两大领域的解决方案。他表示,百度语音平台已经面向开放者开放SDK及自主研发的REST API等多种接入方式,为包括联想、中兴、特斯拉在内的不同行业的企业和个人用户提供优质的语音服务。

在车载领域,百度语音重点优化语音唤醒功能,不但降低了功耗,还提升了稳定性和准确性;在应用端增加多信号处理技术,并针对不同的场景进行深度优化。此外,百度还开放包括图像、大数据、地图以及相关的技术分支,以语音为入口,携手更多的开发者共同完善车载环境。

百度正在打造针对智能家居的MCU和ARM解决方案,开发者可以通过在遥控器上安装自己开发的UI的方式,或者用手机离在线方案来控制一台电视机。今后,百度语音团队不仅要满足人们对洗衣机、冰箱这样的传统家居的智能化需求,还将提供更多的解决方案,建设智能生态圈。

建立生态打破垄断 三种方式为开发者谋利

对于接入百度语音平台的开发者,百度将通过建立生态为开发者提供更多分发和收入。在百度开发者平台高级产品设计师董经纬看来,要建生态,首先需要摆脱“生态=赔本赚吆喝”、“只投入、不产出”、“生态由开发者买单”三大认识误区。参与到百度语音技术生态建设的开发者,除了降低开发成本,还能通过“应用内容前置”、“生态SDK统一”、“前向付费尝试”三种具体执行形式获得超高分发流量和额外收入。

在应用内容前置形式里,百度提供内容对接方案,优先、集中展示对接应用,而开发者则需挖掘应用特色信息,自助完成内容对接,以便获取分发量、特色信息曝光的收益;生态SDK一站接入方式,可以降低开发者接入成本,提高当前覆盖率;前向付费尝试形式则主要引导用户付费,解决开发者的资金链问题。

展开全文
安装智能头条APP 看数小智行业点评

为您推荐

返回顶部