【企服专访】BAT、小米、联想的智能音箱,原来都是这家公司在供应技术!

如今语音交互虽然还不能像电影《Her》中的虚拟女主“萨曼莎”一样,能跟人自然交流,甚至理解人类复杂的情感需求,但以问答搜索、任务控制、娱乐消遣为主要功能的各类语音交互类产品,已经涌现在我们的工作、家居、车载等环境中。

 

近几年,语音交互类产品开始火热起来,BAT、小米、联想等巨头纷纷入局,都发布了语音音箱类产品,想要在这波风口中占据一席之地。

 

而语音音箱的走红,不只是一次远场语音交互技术的突破,声智科技联合创始人&CKO常乐认为,它找到了一个真实的市场需求,提供了可简单操作的语音交互功能,取代的可能是闹钟、定时器、遥控器等这些零碎的家居生活用品。

 

可以预见,随着电视、冰箱、汽车和机器人等进入智能时代,也将依托语音音箱中的核心技术架构。成立于2016年的声智科技,就是远场语音交互的代表企业之一,也是上述厂商们语音交互产品的技术供应商。

         

声智科技的产品展示

 

声智科技的核心成员来自中国科学院,拥有多年的声学和语音识别技术经验。主要提供从端到云的智能语音交互技术和服务方案,包括从芯片、模组、开发板到完整产品的智能语音应用方案。

 

目前,声智科技已经与ARM、NVIDIA、Xilinx、Cypress、Knowles 等芯片和器件厂商合作,同时,与百度、阿里、腾讯等AI 平台企业合作。

 

 由Echo引爆的语音音箱市场 


语音音箱的走红离不开前期Siri等虚拟助手的技术积累,但这些虚拟助手大多成为调戏娱乐的对象,在实际应用场景落地中总是差把火。

 

2014年,亚马逊Echo把近场语音交互拓展到了远场语音交互,放大了其对搜索、任务控制、购物的功能应用,价格又不高,获得了上千万的销售量,成功打开市场。

 

可以说Echo是一款标志性的产品,意味着语音交互在场景化产品落地上拉开了新的帷幕。这也给了国内厂商很大信心,纷纷跃跃欲试,想要抓住下一个潮流趋势和投资风口。

 

跟Echo类似的语音音箱,会更符合人类自然交流的习惯,也标志着AI的兴起,开始从‘以机器为中心’转向‘以人类为中心’。”常乐说,“语音交互不再是和设备‘交头接耳’、‘窃窃私语’的交互状态,也不再是按键和触控交互方式的辅助或者补充。

 

远场语音交互把人机交互的距离扩展到了5米,这也意味着要在语音识别前端和后端处理技术提出了更高的要求。

 


比如前端使用的麦克风列阵硬件,需要通过声源定位以及自适应波束形成做语音增强,完成远场拾音,解决噪声、混响、回声等带来的影响,然后通过后台的识别引擎,也就是各种复杂的软硬件的组合,实现语音转换、语义理解等。

 

这也是声智科技积累的技术优势,从靠前端的语音拾取和语音识别,开始扩展到完整的语音交互解决方案。其中声学技术、麦克风阵列、语音唤醒和语音识别、端到端深度学习等软硬融合技术业内比较受到认可。

 

 先解决机器听清的问题 

 

可以说,正是因为智能音箱成功打开市场,远场语音交互技术才得以演进应用。毕竟让机器听懂世界涉及了数学、物理学、语言学、医学、计算机学等各学科的知识,但从应用场景来看,则相对比较简单。

 

常乐认为现在要先解决机器能够听清的问题,当语音交互的场景过渡到以智能音箱Echo、机器人或者汽车等设备为主要场景的时候,机器听清就尤为重要。真实环境存在大量的噪声、多径反射和混响,导致拾取信号的质量下降,这会严重影响语音识别率。

 

现在看来,智能语音交互场景还局限在语音音箱的积累之上,但随着未来智能家居、车载、银行、酒店行业等其他场景的突破,语音交互将进一步得到市场释放以及技术积累。

 

这也是声智科技要走的市场路线,服务于2B行业的企业,先从家里覆盖,在家里使用习惯之后再慢慢扩展到用户的其他生活方式。比如办公也是比较大的应用场景,现阶段还没有成熟的切入口,但用语音控制会议室,进行远程会议等场景中还是能够实际落地的。

 

常乐看来,像“萨曼莎”这样的机器人管家就是语音交互未来的发展方向之一,“但到达这个阶段还需要一定的时间,先进入智能感知,听懂用户命令的阶段,才能过渡到智能认知阶段,”常乐说,“现在还是在培养用户习惯,尤其是对未来有更大购买力的群体——新生代的年轻人来说,如果他们从小就开始接触语音交互类的产品,就会天然对这种交互方式有好感。

 

 如何看待市场竞争关系?

 

目前,随着语音交互的市场需求增加,围绕着语音交互,芯片、麦克风阵列、远场语音识别、语义理解、语音合成、代工厂商、平台服务、终端智能设备等相关厂商都在蓄势待发,力求抢占语音入口的先机。

 


对于声智科技而言,竞争优势到底在哪里呢?或者说为什么BAT、小米等厂商都会选择声智科技的产品和技术呢?

 

其实,在国内外专注声学技术的创业公司并不多,国内真正能够完整提供单麦/双麦,三麦、4麦, 6麦等麦克风阵列方案的只有声智科技一家。与国内语音赛道的龙头企业科大讯飞相比,声智科技选择不同的商业逻辑。


科大讯飞选择的是既做2B又做2C的业务模式,科大讯飞跟BAT属于竞争关系,也想做成平台型巨头。而声智科技则专注于2B商业落地模式。

虽然语音交互技术本身处理的步骤大同小异,但在细节上的智能化处理就有很大的功能性的不同,比如偏向安全领域,会较多关注如何识别出不同用户的声纹特质加以区分,然后达到对车辆、家居用品的准确控制上;而偏向物联网,则会更加注重各种智能化产品的联动配合,比如打开房间,通过门口的智能感应器预测主人的位置,智能音箱就可以贴心地把最近的灯打开。

 

另外,常乐认为,在语音赛道里面,很多创业公司也在不断改变方向,本来是做技术,但是后来转向做产品,推出智能音箱或智能的语音交互设备,也有转做平台的公司,还有当中兴事件让芯片成为焦点,又有不少创业公司转做芯片……

 

而声智科技会坚持做语音交互技术服务提供商,为客户提供完整的语音交互技术与服务,牢牢守住在技术上的核心优势,并且已经能够市场批量量产。

 

 “相信在远场语音识别这个领域,目前声智应该是全国有最多真实场景数据的公司,也是技术最领先的公司。选择跟BAT合作方式,相对而言,声智科技更加灵活,也专注于做自己擅长的事。

 

比如和百度合作的新品小度智能音箱,声智科技就专门研发了针对儿童语音习惯的唤醒与识别技术,给“小度智能音箱”的“儿童模式”提供更好的语音唤醒和语音识别体验。

 

据了解,未来,声智科技还是会在自己擅长的领域加以深耕,内容和平台则会交给合作伙伴来共同开辟。

 

常乐透露,声智科技从成立开始就一直有收入。 “我们从一开始就不做免费的单,首先第一个它是破坏生态,大家都竞相免费,那后续还怎么来赚钱?这对行业和整个产业是一个不太好的趋势。如果大家都赚不到钱,那就陷入了死循环。所以需要通过合理的商业模式的落地,找到合适的变现方式。 ”


分享到

点赞(2)

说点什么

全部评论