Swami Sivasubramanian 住在西雅图郊外一个树木茂密的地区,那里是当地熊类时常出没的地方。时不时的,这些动物会在扔垃圾的晚上徘徊于 Sivasubramanian 的后院,搜刮垃圾。但是,尽管他和他的家人做了很多尝试,但还是没能看到这些***者。
亚马逊的机器学习部门副总裁 Sivasubramanian 说:“我妻子真的非常想看到这些熊。她一直试图睡得晚一些,希望可以赶上熊来的时候,并且,她希望我能陪着她等。”
在这件事上,Sivasubramanian 有点犯懒。但是,作为一个技术专家,他是非常积极主动的。他在 DeepLens 中创建了自己的解决方案,DeepLens 是亚马逊云计算(Amazon Web Services)的新型视频摄像系统,允许任何拥有编程技能的人应用深度学习技术把各种任务自动化。DeepLens 使他能够安抚妻子,他开发了“可以实际检测到熊的机器学习模型,并给她的手机发送一条文本讯息,这样,她就能马上醒来,说:‘嘿,有一只熊在那里翻垃圾呢’”他这样说到。
DeepLens 可以实施大量其他机器视觉技巧,比如确定食物是否是热狗,而不是热的狗(是的,这是硅谷的参考标准)。它也可以把艺术风格从一张图片转换到整个视频序列。这只是亚马逊在其众多业务中利用 AI 和机器学习的多种方式中的一种,既可用于执行内部流程,也可以用于提高客户体验。
从很早开始,亚马逊根据用户已经提到的他们所喜欢的东西,利用 AI 来提供产品推荐。这些系统背后的算法已经年复一年地不断调整。如今,得益于机器学习,推荐算法已经变得更动态化,Jeff Wilke 这么说到,他是亚马逊全球消费者部门的 CEO。他解释说:“假设秋季有新的流行单品。在过去,算法可能要花很长时间才能让我们知道,购买了这些鞋子的人也购买了这件上装。而通过一些新技术,我们可以更早检测到这些事情和相关性。然后在屏幕上更早地展示这种新上装。”
Echo Dot 以及用 Alexa 支持的设备都被注入了亚马逊 AI。(照片来源:亚马逊)
其他亚马逊的 AI 和机器学习工作给 Alexa 语音助理提供支持,让亚马逊云计算的用户可以访问基于云的工具、允许购物者取了货品就离开亚马逊 Go 商店、指导机器人搬运装满货品的货架直接到物流中心(fulfillment-center)的员工那里等等。尽管该技术对亚马逊的大部分业务是至关重要的,但其应用范围仍然令人惊叹。这也是该公司(短暂地)达到 1 万亿市值 的主要因素,并且有机会回到该市值并长期停留在那里。
亚马逊公司的口头禅是,每天都是“第一天”,这是一个谦逊的说法,因为所有杰夫·索贝斯的创意已经完成了,这才刚刚开始。谈到 AI 和机器学习,Sivasubramanian 不只是推出标准的“第一天”的参考。他开玩笑道“今天是第一天,但是这么早,我们刚醒来,甚至还没喝上一杯咖啡。”
机器人的舞蹈
在华盛顿州肯特郡,离开西雅图南边 18 英里的地方,坐落着亚马逊占地面积达 85 万 5 千平方英尺的物流中心,一群橙色的亚马逊机器人正在那里手舞足蹈。每个橙色机器的顶端有一个黄色的盒子,在那里稳定地放着一个装满货品的架子,该架子的四边各有 9 层。通过 AI 的帮助,当太平洋西北地区的任何地方有人在亚马逊购物时,每个机器人就自动开始行动,现在每个机器人自动操作其他机器人,到达处于被围栏围起来的机器人场地边缘的站点,那里的工人将选取被选购的或品,放到传送带上,送到另一个工人处装箱。
考虑到亚马逊处理订单的规模,最高效率是至关重要的。把每年数百万个订单放大来看,即使每个订单能节省 1 到 2 秒,也会产生巨大的底线差异。
一段时间以来,亚马逊已经把机器学习应用在其物流中心, “以提高我们预测客户要订购的产品并把它放在合适的地方的能力。也要提高把产品送达客户的效率和速度。” Wilke 说到。
这看起来也许不那么有吸引力,但是基于 AI 的最新创新允许物流中心的工人们跳过手动扫描每个订单的货品,是该公司的一个巨大胜利。这项新技术正被用于亚马逊的长期存在的堆放过程,它让工人把来自分销商和制造商的货物存放在仓库货架的任何地方,只要位置记录在计算机中,以便再次寻找时一次就成功。已经投入使用的方法涉及工人从盒子中取出货品、用条形码扫描仪扫描它、把它放上货架、然后扫描货架。双重扫描让货品与其位置关联在一起。
如今,得益于先进的计算机视觉和机器学习技术的结合,工人们能够简单地用双手拿起货品,将其滑到安装在附近的扫描仪下进行扫描,再放入箱子。该系统非常智能,可以识别放置货品的位置,并记录下来以备将来参考,工人们无需扫描箱子。
亚马逊机器人部门工程副总裁 Brad Porter 说,把原本用于扫描条形码的双手解放出来是提高效率的一大福音。他说:“在我自己操作了大约 5 分钟后,我意识到,我能够拿起 5 件或 6 件小型货品……用左手拿着它们,抓起一个,扫描一个,放进一个,抓起一个,扫描一个,放进一个。非常自然,非常轻松。”
在亚马逊物流中心的机器人。照片来源:亚马逊
这个花了 18 个月开发的新系统利用计算机视觉和机器学习算法来评估工人接触货品的方式,确定这些货品被放入箱子的时间。Porter 将这些算法描述成亚马逊在使用的“更复杂”的新闻之一,因为需要判断工人是正拿起一件放在箱子边上的货品,还是事实上把它放入箱子。该系统必须能够在不同的照明条件下工作,无论箱子有多满,有些事情有很大的不同,这跟处于一年当中的什么时间有关。
最近几个星期,亚马逊已经在密尔沃基的物流中心启用了该新系统,并准备在其他 10 个中心也启用该系统。鉴于任何改变的方式都不能把低效率引入亚马逊的物流中心并不引起巨大的负面影响,Porter 的团队必须确保新的创新已经就绪。他们问到:“我们是否准备在今年的高峰期(假期)启动该(系统),我们几乎已经准备好了。”
目前还不清楚亚马逊何时或者是否会在其所有的物流中心推出该新系统。无论如何,Porter 已经在考虑如何改进它了。这归结为利用照相技术和机器视觉处理速度的进步。他想象用更多的相机来升级该系统,让它有可能识别包装上的条形码,甚至不需要工人将货品的条形码朝向扫描仪。在每件货品上也许只节省半秒钟,但是以亚马逊的规模来看,那是非常可观的。
拿了就走
鉴于新物流中心系统的核心设计使用相机和 AI 软件来探测有人拿着一样货品并把它放置在货架上,你也许会认为在亚马逊 Go 商店也会使用同样的技术,亚马逊 Go 商店是亚马逊的自动化杂货店,允许顾客进入商店,拿了他们要的货品,然后直接走出门,所有的货品都从他们的账号上自动扣费。
Poter 说,不是这样。尽管在全公司的 AI 科学家之间可能进行一些咨询,但是 Go 商店的硬件,其中包括彩色和深度相机,还有重量传感器和算法,都是独立开发的。这反映了 5 年的系统开发工作,该系统能够在拥挤的杂货店这样的复杂环境中跟踪人们处置货品,而这些货品无论在尺寸、形状还是颜色上都有很大的不同。
就目前来说,只有 4 家亚马逊 Go 商店,其中三家在西雅图,另一家在芝加哥,更多的 Go 商店还在筹备中。但是它们能够处理稳定的客流:顾客可以在进入商店时扫描他们的电话,随心所欲地购物,从货架上拿起货品并放回去,它们还能精确地跟踪他们最终所选购的货品,无论这整个过程中存在多少潜在陷阱。
亚马逊 Go 商店从外部看来就像一间典型的小杂货店。照片来源:亚马逊
亚马逊 Go 部门的副总裁 Dilip Kumar 表示,顾客拿起货品的动作对该系统是个挑战,因为这会阻挡镜头。Go 的系统必须能够跟踪店内的每个顾客已经拿起来的货品,可能包含多个相同的货品,无论店内有多么拥挤,甚至两个穿得一样的客户并排站着,交叉着去取要购买的货品。Kumar 说:“你可以在这里拿一样货品,(或者)我可以在那里拿一样货品。我们仍然需要能够我的货品和我对应起来,把你的货品和你对应起来。所有这样的挑战不仅仅是能够构建一个感应器,而且还能够应对不同的光照条件。你可以看看色温。不同的东西色温是不同的。粉红色在一天内看起来不都是粉红色的。”
为了处理所有这些问题,Kumar 的团队设计了一个算法,该算法分析相机所看到的内容,并寻找人们与货品的互动。为了使之生效,算法必须能够确定,当一件货品被从货架上移走的时候,到底是谁拿走了什么东西。
Kumar 不会说 Go 商店的系统有多精确,但是,很明显,如果它们容易出现较高的错误率,那么公司将不会向公众推出。最早的西雅图店已经开张一年多了,它就位于亚马逊 CEO 杰夫·贝佐斯所在的总部大楼的底楼,公司对系统做了微调,只允许员工入内。
亚马逊 Go 技术的下一步是增强算法,使其“每单位的计算”更强大,并利用更便宜的传感器,Kumar 这样说到。把这两个因素结合起来,Go 商店的系统能够更快地识别商店中的新货品,无需训练算法以识别它们。他指出,这很重要,因为在任何给定的时刻,有 20% 到 30% 货品是新的。
在被问到亚马逊是否计划把 Go 平台推广到其 Whole Foods 王国时,Wilke 说不太可能。相反,他把 Go 看作是很多方法中的一种,包括亚马逊 Pantry、亚马逊 Fresh、Whole Foods 等等,向顾客能提供杂货和其他货品。Wilke 说,最终,机器学习是一个“推进”技术,“它使得我们让这些体验中的某些变得更好。”他还补充说,“房地产这块很难”,亚马逊没有这方面的长期经验。但是,如果在 Bloomberg 的 Spencer Soper 最近的报道中所说的是正确的话(他报道了 亚马逊正在考虑在接下来的 5 年时间里开设 3000 家亚马逊 Go 商店),该公司并不担心机器学习的前景。
Alexa 的技能适合所有人
奇怪的是,在大部分人想到亚马逊和 AI 时,他们会想到 该公司的数字助手 Alexa。到目前为止,人们已经购买了数百万台支持 Alexa 的 Echo 设备,第三方开发人员已经构造了 45000 多种技能,本质上都是语音驱动应用程序,能够做任何事情,从帮助下厨到玩家庭游戏,到读新闻。
在以惊人的速度推出自身的 Alexa 小玩意之外,亚马逊一直致力于帮助第三方硬件制造商把 Alexa 直接集成到他们的产品中。这项计划被称为 Alexa 语音服务( Voice Service),迄今为止已经产生了大约 100 种产品,涉及 Sonos、Ecobee、索尼、联想等企业。Rabuchin 解释说,Alexa 语音服务本质上是一套云上的 API,使得硬件制造商能够使用 Alexa。亚马逊向第三方提供它的前端音频算法,还提供构建 Alexa 支持的设备的指南。
亚马逊也和研究院合作,请他们创造可定制的技能用于 Echo 设备,这些 Echo 设备被放置在大学宿舍或旅馆的客房中。例如,Alexa 语音服务和 Alexa 技能工具包部门的副总裁 Steve Rabuchin 回忆到,住在万豪酒店(Marriott)时,他能够让 Alexa 开关电灯,打开电视、转换频道,并询问健身房的位置所在。
Alexa 的下一个前沿领域是,让顾客创建自己的定制技能。在过去,这需要一些基本的软件开发知识才能做到。但是,亚马逊希望能将 Alexa 技能创造过程民主化,因此推出了所谓的 Blueprints,这是一个 基于模板的 Alexa 技能创建工具,几乎任何人都能理解。
Blueprints 允许任何人教 Alexa 新技巧,无需编程。
用 Blueprint 创建技能简单到像填写几个字段并点击保存键即可。尽管这些技能不会像专业开发人员所构建的那样复杂,也不能公开,但是,它们允许定制技能,几乎所有的 Alexa 用户可以把 AI 用于高度个性化的目的,如发出指令给临时看管屋子的人或者是锻炼方案的步骤。
亚马逊的 Echo Plus,照片来源:亚马逊
亚马逊的 AI 无处不在
亚马逊崛起为价值近万亿美元的公司,其主要的驱动力是亚马逊云计算,这是其庞大的基于云的存储和服务器业务。AWS 已经成为企业和开发人员的云标准,他们希望访问相同类型的 AI 和机器学习技术,这些技术支持亚马逊产品,如 Alexa、亚马逊 Go 商店、亚马逊 Prime Video 的 X 射线功能、在 Amazon.com 上货品交付时间的估算等等。亚马逊机器学习部门的副总裁 Sivasubramanian 说:“我们在 AWS 的使命是,把这些机器学习能力交给每个开发人员和数据科学家。”
Sivasubramanian 表示,几乎在经济的各个领域,机器学习的潜力 都令人兴奋。但是,尽管无数的企业高管们看到它能有助于他们的企业,但“它仍然处于起步阶段。(这些高管)指望着我们:‘你怎样能真正帮助我们利用这些机器学习能力来改变我们的客户体验?’”
Sivasubramanian 表示,到目前为止,已经有成千上万的客户在使用基于 AWS 的机器学习服务,遍布各个行业,包括零售、房地产、时尚、娱乐、医疗保健等等。这些客户具有各个层次的 AI 能力。有些是 Sivasubramanian 称之为专家的人士,他们拥有机器学习的博士学位,有些只是应用程序的开发人员。亚马逊已经量身定制了其 AI 和机器学习产品,以满足各种客户的需求。
这些用户中,有些具有丰富的经验和构建自己的机器学习模型的能力,其他人只是想利用那些已经为他们构建好的模型。这就是亚马逊构建 SageMaker 的原因,SageMaker 是一个端到端的机器学习模型服务,旨在帮助开发人员构建和训练机器学习模型,并在云端或像智能手机这样的设备上运行。
https://v.qq.com/x/page/b0749oet6uc.html
Sivasubramanian 利用 AWS 的 AI 和机器学习服务来选出各种各样企业客户的例子。其中包括使用 SageMaker 来构建欺诈检测模型的 Intuit;Grammarly 是预测用户要写的内容和需要什么更正;GSPAN 是分析上千小时的视频以识别名人和特定的政治人物,同时也把其索引的视频数量翻倍;DuoLingo 利用亚马逊的 Polly(文本到语音服务)来生成个人语言学习课程;Liberty Mutual 利用亚马逊的会话 API 作为服务(Lex)以构建聊天机器人,使保险公司能够处理大量用户的问询;NFL 分析比赛以预测哪个球队会赢。
他表示,AWS 的机器学习工具的使用量在一年时间内增长了 250%,并且自去年 11 月以来,AWS 在其机器学习产品组合中增加了 100 多个新功能或服务。
其中之一是 DeepLens。它被设计成能够让开发人员在开箱后 10 分钟内构建和全面训练一个机器学习模型,该相机系统已经被用于很多亚马逊从来没有想到过的方面。
当然,在这些非正统的应用程序中,Sivasubramanian 所构建的项目是用来满足其妻子的要求。他所学到的是,DeepLens 比他意识到的更聪明。他说:“最初,我告诉它任何动物,包括我的狗。但是,这是机器学习有趣的地方:持续地调整它,直到确保排除那些误报的东西,确保它变得越来越准确。这是一个正在进行的项目,因此(我的家庭)可以拥有世界上最好的熊侦测器。”