【企服干货】产品经理和程序员干架,在人工智能行业太常见了!
LTT 企服头条记者 2018-08-10

8月9日,由3W企服和企服头条主办的Open Forum活动——AI企业应用专场“AI语音的行业场景应用”在深圳成功举行。

科大讯飞产品经理林学仕就“智能语音的技术发展及应用场景”展开了干货分享。他认为当信息传递能够极简化的时候,人才能从信息爆炸当中安静下来。信息爆炸时代很痛苦的事情,语音交互可以解决这个问题。

“希望能够实现《Her》的场景,以后不仅是智能家居环境,可能佩戴的耳机,在路上走的时候,语音助手跟家庭中的语音助手是同一个。”林学仕谈到,“虽然我们在人工智能的道路上还有很长的路要走,技术跟产品的结合可以帮助这种体验更快的到来。现在人工智能助手有它的局限性,可也有它的拓展性。”

IMG_0909.jpg科大讯飞消费者BG智能硬件平台业务部产品经理林学仕

以下内容为林学仕演讲实录,企服行业头条(微信ID:wwwqifu)略有删改。

在前段时间有一个段子,一位产品经理对程序员提了一个需求,手机换上不同颜色手机壳的时候,手机主题要根据手机壳的颜色切换。

程序员肯定不干,两个人打了一架,被炒鱿鱼了,听说离职的时候也打了一架。

作为同行,我是站程序员这一边的,但是又有大大的忧伤,冷静下来如果脱离技术不谈,我们看需求是否存在?其实是存在的。

确实有用户有这样的想法,手机壳套上去主题颜色会变化,罗永浩在它的坚果手机上也实现了这样的功能。甚至有的用户希望主题颜色根据心情变化,对于这两种需求,既然是存在的,可是技术却是不可实现。

这种现象,我个人猜测在互联网中应该不是很常见,但很可惜在人工智能行业太常见了。

产品和技术开发之间的差异

我把它定义为技术为导向的功能设计。

举个例子,我参加过一次AI圆桌,圆桌上只有我是行内人士,其他人都是其他行业的,有新零售、金融、法律行业的。我问他们,你有没有使用过什么AI产品?他说买了一个智能音箱。

我就接着问,你在使用智能音箱的过程中,有没有什么是让你感受到不是很自然或不是很舒服的?他毫不犹豫就回答了,能不能不要每次都唤醒它,这会让我觉得有点无聊。

这种需求如果我拿去跟研发说,肯定也得打一架。但这种需求是否合理呢?肯定是合理的。

我们总说,人和人沟通最自然的方式是语音交互,实际上人和人之间开启一段对话,不一定要叫对方名字的,可能是一个眼神,或者说摆摆肩膀,或者说其他的暗示动作,所以说这种需求是合理的。

但是回到智能音箱的过程中,用语音交互,用户就很自然的想要有这样的体验。为什么需要唤醒呢?

我们回到技术方面,在唤醒过程中,音箱会根据我们说话的声音形成一个波束,在这个波束的声音会增强,波束关联的声音会抑制,声音获取后通过处理可以比较清晰,可以被识别。

最主要的是误识别,在没有唤醒的过程当中,所有的声音都会上传处理,我们说话是没有编辑的,机器很可能把一段不相关的话执行了某一段指令,这对用户体验不是很好。

还有就是隐私,唤醒是在本地端的时候,不唤醒的时候音频不上传,唤醒之后所有音频都上传到云端处理。如果唤醒了,所有的说话内容都会被云端所记录,相当于没有隐私可言。

还有一个是云计算资源,因为是上传到云端处理,如果没有唤醒,所有音频都是实时上传,这个并发量是非常高的,云计算的资源无法承受。

回到这个技术点我们会发现,我们好像又做不到不去唤醒它。用户有这个需求,技术又没有办法做到,怎么办呢?

我觉得在未来,多模式的唤醒是一个常态,什么是多模式呢?比如说小朋友玩机器人的时候,可能抚摸一下,机器人就开启对话。或者眼神看到智能音箱的摄像头,智能音箱就会给我们开启一段对话。或者说我们打一个固定的手势可以打开智能对话,或者说开启音箱的时候,也可以开启对话。

所有的模式,如果单点来看都有它的局限性或问题。所以我觉得未来这种传感方式,不是一个固定的孤岛,应该是联在一起的,所有的方式通过一定的比重来执行是否要对用户进行唤醒,这是我们未来要探索的方向。

如何在前端进行降噪处理?

刚刚说到唤醒带来降噪的内容,人是怎么降噪的呢?有一个词是鸡尾酒会效应。

WX20180810-195935.png

酒吧的主要特点是很嘈杂,在嘈杂的环境下跟身边的朋友聊天的时候,这个声音是清晰的,是可以被听的很清楚的。这个机制暗示着一个很奇妙的能力,不管你身出的环境多嘈杂,都可以跟朋友正常的沟通。

为什么神奇呢?是因为我们的声音,任何音源发出来的都是独立的音波,在酒吧里面背景音乐是一个音波,朋友聊天是一个音波,旁边不相关的人说话的声音也是一个音波,一开始都是独立的,但是到我们耳朵的时候其实是融合成一个音波的,完整的一个,不可能再拆分。有趣的是大脑可以从中提取到我们想要的信息,这是它的神奇所在。

这个现象至今为止科学家都没有做出很好的解释,这也是为什么人工智能行业近几年一直在聊它,实际上这个技术还是属于初期阶段。

虽然说没有办法跟人达到相同的水平,但我们会曲线救国,会想办法模仿它。麦克风阵列,也就是多个麦克风形成一定的布局,超于两个就叫麦克风阵列。

一般来说麦克风数量越多,空间划分越仔细,比如说这个空间是5-7个麦克风,空间是越来越仔细的,所以语音增强效果和降噪效果会越好。

WX20180810-195954.png

如果是这个原理,把麦克风做的越多就越好不就好了?这个说法没有错。我们在做相应的研究,12个麦克风阵列,相比前面的空间划分更精细,已经均匀的划分在整个空间,对降噪效果有质的提升。

为什么我们不希望它落地呢?举个例子,大家都用过导航,导航的GPS一开始是军用的,可以帮助军方导弹精准的打击敌方目标,后来技术成熟就开始民用。虽然技术更成熟,但是精度更低,变成了10米左右。

这有多方面的考虑,但有一个很重要的原因就是成本,我们必须考虑很强的技术在转成民用的时候,必须顾忌到成本。我认为未来双麦才会是主流,自然界已经告诉我们答案了,人有两个耳朵。

双麦会是主流,是因为它是麦克风阵列数量最少的数量,单麦克风没有办法具备阵列的特点,所以排除掉。双麦恰恰是最低成本的一个方式。

随着算法的升级和技术迭代,可以有办法让曾经多麦克风阵列能够实现的能力在双麦上实现。

这样可以做的事情就更多了。双麦有一个特点,除了低功耗、低成本,还能够体积小巧,带来了更大的场景探索的边界。

比如说大家看这个黑人(PPT),他戴的耳机是苹果的airpods,无线蓝牙耳机在未来是一个趋势,双麦在未来也是一种趋势,当两种趋势结合在一起的时候就可以产生化学反应。

智能音箱曾经能够承载的语音助手,在未来就可以放到耳机上。我相信在未来的几年,智能耳机的形态会越来越成熟,到目前云助手就在你的身边。所以看到低成本带来的是产品形态的想象,这个想象交给开发者。

提到麦克风阵列,还要提到一个前沿技术——光学麦克风。我现在讲话,脸部肌肉其实是在振动的,光学麦克风就是把我脸部的振动的信号转化成音频信号。

同时在跟传统的声学麦克风进行配合,它可以帮助我们在更嘈杂的环境下实现更好的降噪效果,实现110听力左右的通话和语音识别,这个技术我们正在研发过程中。

语音识别不仅仅是把语音转换成文字

讲完前端部分,现在谈谈语音识别。

语音识别难点在哪里呢?很多朋友觉得语音识别就是把我们的语音转换成文字,其实不完全是这样子。

大家可以看下面这句话“我想休养下身体/他的修养很高”,“修养”的音是一样的,如果简单的从音频转换成文字,机器不知道选择哪一个?语音识别是跟语义理解结合在一起的,剩下2%的难点就在这里。

还有一个难点是口音不标准,这个难点已经被讯飞解决了。公司在刚成立的时候做语音识别这一块,需要音频训练,之前请了中科大的很多大学生录音,录了2000小时的音频把识别率做出来。拿去测试,测试发现,如果普通话标准,识别率就可以。如果普通话不标准,识别率就会下降很多,发现没法商用。

WX20180810-200014.png

讯飞的创始人找到全国各地的老人、小孩去丰富录音库,中国的发音体系实在太大了,录不完。最后做了一款讯飞输入法,这个产品出来之后,这个问题慢慢被解决了,讯飞输入法有3亿左右的用户量,每个用户提供了大量的音频数据,帮助我们的识别系统做的更好。

同时,讯飞开始做方言识别,从趋势上看方言肯定会消失,没有错。如果从投入收入比来看,做方言识别也没有什么好事。

但是拼多多给我们的提示,总觉得比较落后的人群很少,实际上在中国是非常多的,在中国讲方言的人很多。曾经被我们觉得是落后或嘲笑的方案体系,再过几百年就是一种文化遗产。

刚刚说到语音识别和语义处理是结合在一起的。语义处理,先看一下下面这段对话“看周杰伦电影,结果语音助手说正在为你播放《最长的电影》”什么情况下会导致这种情况下呢?识别错误的情况下。

这两句话,“周杰伦”是一个实体词,我们可以把它定位成某一个含义,“最长”的含义,我们也可以把它定为实体词,定义为某部电影。所以机器识别的时候会把“最长”自动识别到电影上,就会导致识别上的错误。

除了实体词,最重要的关键点是知识库。语义识别其实很复杂,这里讲的是把抽象的概念具像化。

知识库是什么意思呢?“怎么去深圳大学?怎么去土豆皮?”“深圳大学”是一个实体词,“深圳大学”这个实体词属于地图的知识库里面。

如果这个提问发现信息是属于地图库的,就会启动导航的信息。如果把“土豆皮”也列在地图库里面?怎么“去土豆皮”,就会理解成要去某一个地方。在语义理解上,知识库也起到了很大的作用。

用户在跟智能音箱或智能助手对话的时候,提问是分为头部和尾部的。头部是大部分用户可能会提到的问题,举个例子“杨幂的老公是谁?”这是属于头部问题。

长尾是只有少量用户会问到的问题,比如说“杨幂的脚有多大?”。根据这种情况,我们提出两个解决方案,第一种是知识图谱,知识图谱会把所有的实体词产生联系,在包含了杨幂的知识图谱里面。

但是这个知识图谱是有限的,从目前个人的体量、文化来看,很难做到每个人都有知识图谱。面对长尾问题,必须换到最传统的解决方法,搜索引擎,相当于我们在搜索引擎上搜索一些问题,然后把这些问题精简化,再给你答案。

所以搜索引擎也是人工智能技术的一种。

我们的中文体系非常博大精深,可是我们的理解能力又是超乎想象的。所有人都能看懂,机器却没有办法理解,原因是什么呢?原因是机器没有认知联系。

什么是桌子?大家可能都指出来,眼前的是桌子,木头的桌子也可以认知出来。这个问题,机器也可以做到,把不同桌子形态的图片,不同颜色的,不同材质的,给它大量的数据训练,机器最后也能认识出什么是桌子,什么是猫,什么是狗,也一样的,只要给足够的数据,机器都可以认出来。

我问大家一个问题,什么是爱?什么是喜欢?就比较难去表达了,可是你们都知道,每个人心中都有一份标准。怎么样让机器理解什么是爱?什么是喜欢?就很难。

如果我告诉你,我喜欢一只猫,你一听就懂什么意思。但是你告诉机器,机器就卡壳了,“喜欢”它都不懂,“喜欢猫”它更不知道是什么意思,机器没有认知联系,导致看不懂前面这些话的原因。

这会导致人工智能助手在目前处在这样的状态,走不出这个十字路口。人工智能助手就像十字路口的警察,给他一个尽量清晰可行的命令,这个命令是经过规范化的,没有问题,他可以非常高效的告诉你要往左走还是往右走,可以让你轴出去。

走完之后,这个交警就必须回到十字路口的原点,出不去,什么时候机器可以地我们走遍天涯海角呢?有认知联系的时候。

当然了,我们还是不要太悲观,虽然机器做不到像人一样理解知识体系或语言体系,但是在限定场景下,机器已经能够进行尝试。

比如说只要给一个框架,十字路口不要太多,可能是两个或三个十字路口,机器确实有办法完成。

举个例子,你问它天气,问深圳的,再接着问上海的天气,都可以根据上下文回答你。要订机票,也可以跟你进行交流,提醒你去哪里,什么时候订,这些都没有问题。

我们把它定义为全双工,当你信息传递过去可以同步传递给你,这种交互让语言更高效化。

在设计多人对话的时候有一个标准,说一句话准没有问题,但是三句话就太多了。如果一个问题七、八句都解释不清楚,还不如用手机。

基于这种情况,我们确实做到垂直场景下可使用的语音助手。把它定义为工具类的服务升级,目前的语音助手只能做到相对简单的、清晰指令下的执行。

智能音箱+屏幕,为什么不行?

语音所能承受的信息量相对少一些,屏幕呈现的信息就丰富地多。有厂家做这样的尝试,在智能音箱上加一个屏幕,试图解决用户的问题。我觉得智能音箱加一个屏幕这种做法有点奇怪。

智能音箱的优势是远场交互,智能音箱的体积比较小,在上面加一个屏幕可能比手机屏大不了多少,7寸左右,5米的距离应该看不清。

如果要使用智能音箱屏幕,还得走到智能音箱前面。当走到智能音箱半米之内的时候,为什么不拿出手机呢?

智能音箱加一个屏幕会有问题,但是没有屏幕又解决不了工具型语音助手的效率。

我的思考是,视觉和听觉结合肯定是要的,不过它的屏幕载体不太可能是智能音箱,比如说购物的时候,把你想要的东西通过屏幕的形式传到你的手机,或者说借助更大屏的显示器,例如电视,实现远场交互,才是未来智能家居下沉浸式的体验标准。

语音合成,就是机器的表达。先看人的表达,人的表达有一个公式,人的情感表达里面只有7%来自于内容,38%来自于语气、语调,55%来自于表情肢体语言。

WX20180810-200029.png

表情、肢体语言用现在的人工智能技术很难展示,关键点在于38%的语气、语调,我们希望机器是有感情的。在开始的时候我们尽量追求语音合成的自然度、流淌度、音库丰富度,希望它说话尽量的听起来舒服。

我希望以后的语音合成不再像新闻联播一样字正腔圆,希望以后的语音助手是会犯错的,比如说会有语气词,会犹豫。希望结合语义理解,只有学会了倾听,才更好的去倾诉。

整个链条,从一开始的语音唤醒到语音识别,到语义理解,到语音合成。物联网是很早前就有的风口或概念,也炒的很火。最近重新被拾起来的原因是改了一个名字叫智联网。

人工智能技术跟物联网进行结合,很多人认为人工智能技术将会是物联网能够进一步发展的助推力。

为什么这么说呢?可以看这个图片,汤姆猫是智能手机刚兴起的时候很流行的一个游戏,产品经理在设计它的时候有一个很取巧的设计,就是这个汤姆猫的动作,其实是在暗示用户说话的时候尽量靠近手机,环境要尽量的安静。

但是万物互联时代,不是所有设备都像手机一样是随身携带的,不可能跟每一个设备交互都要走到它前面去,智能语音在万物互联的时代作用就开始凸显了,不管是以中控的形式还是单品的形式,智能语音是万物互联时代能够解决交互痛点的一个技术。

但这只是一部分,还有一部分,在万物互联时代信息量是爆炸的,传统一个手机的信息量那么多,未来在智能家居里面,智能电视、智能空调、智能风扇都连上网络的时候,所需要承载的信息量以指数性增长,人的精力是有限的,数据的增长会给人对数据的处理带来困扰。

怎么解决数据爆炸性增长?还是回到交互方式,当信息传递能够极简化的时候,人才能从信息爆炸当中安静下来。语音交互恰恰是信息极简化的承载体,比如说在家居环境中一个随时的想法,随时的一个指令或随时的一个查询,一句话就能够解决事情,就没有必要再拿出手机打开应用搜索应用列表里面想要找的那个设备,点进设备看状态再操作。

这是一个信息爆炸时代很痛苦的事情。所以语音交互在这个问题上可以解决。

我们希望能够实现《Her》的场景,以后不仅是智能家居环境,可能佩戴的耳机,在路上走的时候,语音助手跟家庭中的语音助手是同一个。

把语音助手归为管家,管家有一项工作是管理仆人,我们让智能语音控制设备,这些设备就是仆人。

同时,除了设备管理之外还可以进行智能决策,会开始脱离语音,让设备具备智能决策的能力。不一定等到热的时候才开空调,会感知到你热的时候就会帮你开空调。

在物联网时代,思考是脱离了语音往更进一步发展。

我觉得所有事情都有解决方案,虽然我们在人工智能的道路上还有很长的路要走,技术跟产品的结合可以帮助这种体验更快的到来。现在人工智能助手有它的局限性,可也有它的拓展性。    

以上就是我的分享,谢谢大家!


分享到

点赞(1)

说点什么

全部评论