【企服干货】亚马逊CTO沃纳·威格尔:AI时代的企业竞争差异在哪里?
李晓松 李晓松 2018-08-10

企服行业头条现场消息,8月9日,在亚马逊AWS技术峰会北京站的活动中,知名网红、亚马逊CTO沃纳·威格尔在主会场发表了精彩演说。在演讲中,沃纳·威格尔针对AI时代,企业间的竞争差异在哪里等问题进行了深度解读。以下内容整理自沃纳·威格尔现场录音,企服行业头条(微信ID:wwwqifu)根据内容略有删改: 

亚马逊 CTO Werner Vogels.jpg

亚马逊CTO沃纳·威格尔

在我看来,就是数据和数据的使用,以及从数据中获得的价值。

谈到数据就会涉及到AI,而随着AI时代的到来,企业之间的竞争差异到底在哪里?在我看来,就是数据和数据的使用,以及从数据中获得的价值。

因此,今天我要要着重谈一下机器学习、数据库和数据分析,这三个领域在过去几个月中出现了最大的发展。

关于机器学习

机器学习有三种类型的分析,一种分析是对历史的数据分析,比如说数据仓库传统的一些数据分析。

第二种是对实时的数据分析,比如我们不感兴趣昨天的库存,而是现在当下的库存,我们不感兴趣昨天在Twitter上有什么样的帖子,我们更感兴趣的是现在社交媒体的动态。

第三种分析就是对未来的预测。这就是机器学习要做的,尽量希望能够找到数据的一些规律,从而借此开发、预测服务。

过去20年,大家可能都接触过一些机器学习,其实亚马逊电商平台上的产品推介,就是一种机器学习技术的使用。

我们来看一下Netflix,它是一家视频流网站。Netflix上75%的观看视频,都是通过推荐产生的。这些推荐必须非常的准确,否则客户就不愿意用了。

因此我说,机器学习无所不在,他们会自动分类,会搞清楚图形与广告之间的联系。

去年有一家公司做了一个展示,在一场拳击赛中,两个拳击手都戴着传感器,因此每一次出拳我们都知道拳的力度,并且能够了解到每一次出拳对于对方拳击手造成的痛苦程度,这些数据都会被分析,这些都是机器学习来做的。

还有一个公司叫pushplay,可以去帮助对于业余选手的培训,他们在这个系统中导入大量的一些比赛的视频,全球135个队的比赛视频,帮助单个运动选手有更好的成绩。

AWS的机器学习什么样?

我举上述几个例子的目的是什么?我就是要告诉大家,亚马逊在机器学习的使用上有非常悠久的传统,比如个性化推荐、库存管理、无人机,还有亚马逊的语音、无人店等等,都在使用机器学习的技术。

在AmazonGO中,你只要拿着商品,走出门口就行,无需收银的环节。之所以我们能做到这一点,是因为我们用机器学习已经20年的时间了。

在亚马逊我们有数以千计的工程师在做机器学习,不管是需求预测,还是欺诈检测,大家可以想像亚马逊电商方面,我们有几十亿笔交易的数据,如果不利用这些数据来做预测的话,那就太傻了。

如果我们有了过去的欺诈的数据的话,那么利用机器学习,我们可以判断一个新进来的订单是否可能是欺诈订单。我们可以设立一个门槛值,达到门槛值可能性的订单我们就会把它交送给一个实际的员工进行判断。

以前我们需要大量的数据科学家来做数据分析,但是数据科学家人数是不够的,所以我们就把数据分析做成一种服务,嵌入到我们的服务中,为大量的工程师所用,这样机器学习就能够在亚马逊内部普及开来。

不管是假冒商品的检测,还是搜索意图,所有这些都是亚马逊零售业务在机器学习技术推动之下开发出来的一些功能。AWS有数以万计的客户,在我们的平台之上使用机器学习。

比如在中国,我们有一家客户是开发无人车驾驶的,他们开发了一个非常复杂的,是用的Apache开源的框架来开发的,就是在AWS平台之上进行的技术开发。

我们看到在过去一年机器学习的使用井喷,我们看到250%的增长率,而且在全球AWS平台之上,可以说全球这种机器学习的工作负载十个就有八个是在AWS平台之上运行的。如果要推动机器学习的普及化的使用,我们就需要做一些改进。因为机器学习需要全新的堆栈。

机器学习到底是什么?流程又是什么?

我们来看一下机器学习到底是什么,要数据输入,要通过算法来处理,我们对算法进行微调,不断地重复,达到自己想要的精准度,然后输出一个模型,这个模型你可以向它问问题。

我们再来看一下机器学习的流程,首先要选择数据、挑选算法,然后做培训。培训就是要调整算法的参数,直到你获得的输出能够达到足够的准确度,就是达到你设定的门槛值。

然后你把这个输出的模型进行部署,把它部署在多个可用区上,让模型可用。所有的这些组件我认为都是属于一些繁杂的工作。其实和机器学习本身并没有太多关系,80%的你做的工作都是一些所谓的没有差分性的苦活、累活。

所以我们想把这个转过来,80%你们的工作应该是机器学习本身,而一点点只是那些繁杂的工作。

我们的目标是什么?机器学习能够为每一位开发人员所用,就是工程师们,他们可能并不感兴趣算法本身,他们只是对模型感兴趣,你就可以用SageMaker。

我们开发了一系列的应用服务,你们可以获得这些预制的模型,你们无需自己去做模型,其中一个是Amazon Rekognition,它可以做识别的,它可以做对象识别、面部分析、细节的分析,这些都是预制进去的,你只需要把图形导入,我们就可以为你开发这些模型,你就可以用它来做图形、视频的分析。

我们都给你预制好了这些模型,语音、听力会变得越来越重要,我深信下一代的数字系统都会是主要的以语音为界面的系统。我们有Amazon Polly,涵盖了25种语言的52种不同的语音。

同时还有自然语音云识别的产品。还有文本处理,我们可以有24种语言的双向翻译,我们支持简体中文。同时还有Amazon Comprehend,可以做情感的分析。还有各种各样的应用服务,模型已经做好了,你无需做机器学习那些繁杂的工作,你只需要用模型来做出你想要的结果。

关于数据库的问题

我们一直在谈数据,谈数据必然会谈到数据库,数据库依然是我们众多客户应用的核心所在。即便他们在云端搭建新的应用,需求依然是非常重要的一环。所以我们需要把云规模的优势引入到数据库当中。

我们在这里有一个服务,让从本地数据往云进行迁移的过程变得更加简单易行。两年前,我们利用DMS迁移超过8万3千套独立的数据库,我们可以看到在不同的数据库之间进行迁移,将迁移的时间尽可能做到零宕机。

我们的客户大概十年前就跟我们说,他们不想再用那种企业级传统的数据库,用的这种非常复杂并具有一定风险度的工具,他们这种复杂性、这种困难和风险是他们不想要的,他们希望用一种更加高端的所谓企业级的数据库,可以是本地的,又或者说它是开源的。

说到开源的时候,这就意味着限制性要更少一些,更加灵活。客户希望看到他们的数据库能够可扩展,并且能够适用多种不同的环境。所以我们就做了Aurora,这是一个真正的云和本地都能够实现良好运转的数据库的工具。

很多数据库都是90年代就做了,但是底层的技术并没有发生很大的变化。但我们现在做的是本地和云端都会有备份,性能的水平,安全性的水平、可靠性的水平都是以前不可同日而语的。所以Aurora我们推出了,现在在宁夏这边已经可用了。

大家会看到一些高端的数据库的服务非常好,但是它的成本正在下降。也就是说高端的数据的集成的服务,可以以更加低廉的价格提供给客户。大家看到Aurora是我们AWS历史上在中国增长速度最快的一个服务,所有这一切都在使用Aurora作为他们后端的数据库的备份。

客户也非常关心未来会有什么样新的性能亚马逊可以确保,我们会持续推出高性能的功能,来满足客户不断增加的需求。比如说多主架构,也就是说我们有一个Masternote,更加可靠、速度更快,能够极大提高系统的性能。

这种关系型数据库可以来完成多主节点,这是非常突出的功能。我们还有一个基于Oracle Rac,实现一个共享的数据库。这个多主节点是一个真正的在云端都可以实现的服务。

关于服务器的问题

在客户方面还有一个痛点就是,他们不想再要那么多的服务器了,他们也不想知道自己用了多少个节点,所以我们现在就有一个Aurora Serverless的服务,你设一个最高或者中等水平的节点数,然后你就不用管了,你得到的性能都是最优化的。

我们可以看到在全球已经有大概几万个这种典型的管理是通过Aurora Serverless来完成的。在很短的时间里使用量激增,也没有遭到Aurora的崩溃。

我们还会有很多非结构性数据需要进行分析和处理,我们称之为数据湖。我们在这方面的产品Amazon S3,它已经成为了流行的数据湖选项。

不同的存储能力、不同等级的存储能力,都会给大家合适的选项,保证稳定性和安全性。S3对于所有客户来说,用于数据分析的存储能力方面最好的选项。而且随着时间的推移,它的这种优势也是不断得到验证。在数据分析方面,S3是非常好的。

不久之前,有S3的客户需要用Prefix来做平行的处理。所以我们对S3过去几年做了一些改善,如果你想写5TB的数据的话,它要41分钟的时间。

提升性能之后,时间可以缩短到12分钟。更重要的是,因为不再需要做这种Prefix的操作,所以可以降低处理的要求,并行处理的速度也大大加快了。过去可能写入的时间一分钟以上,现在只需要几十秒。这对于数据处理来说是一个速度上的比较大的提升。

S3是一个最完整的系统,不管是不同的存储的架构EBS还是关系型的数据库还是本地的数据库,我估计你们在座的还是有些人会把自己的数据上传到云上。你要把你的数据和数据分析的引擎连接起来,就需要中间的工具,来帮助把所有的这些数据,做数据分析需要的数据做本地化,找到这些数据之后,再和引擎连接起来。

 比如说大规模的数据,这里有Elasticache等等,所有工具都是放在这里供你选用的。还有很多的客户用了我们这个产品,都是在数据分析领域,可以看到TOC等等,这一页PPT都是我们用户的名字,用我们在数据分析方面的工具。

特别是一些线上销售的企业,电商的企业,比如他们用Redshift等等,AWS的产品实现了他们业务快性的提升,由几个小时的时间缩短到几分钟的时间。世界如此之大,我们要把这么多的数据都要找出来,和系统联系起来。比如说我们很多客户会用到几十种,比如40几种AWS不同类别的应用,来提升他们的业绩,来搭建他们自己的数据分析的平台。

分享到

点赞(4)

说点什么

全部评论