人人都可以创造自己的AI：深度学习的6大应用及3大成熟领域

01 深度学习的崛起之路

1. 人脸识别的起源

2012年，Alex Krizhevsky等人提出了AlexNet网络结构模型，以一种结构上轻巧简单但计算量上远超传统模型的方式轻易战胜了传统的机器学习模型，并凭借它在ImageNet图像分类挑战赛上赢得了冠军。

自此，在图像领域点燃了深度学习的热潮，无数公司与学者纷纷转向该领域，并在短短几年内就取得了大量的突破性进展，其中包括何凯明等人提出的残差神经网络、谷歌提出的GoogLeNet等。这些新的研究成果使得人脸识别等过去不可能实现的场景拥有了落地的可能。

2. 自动驾驶的福音

巧合的是，同样在2012年，图像分割领域也通过深度学习的应用取得了历史性突破，那就是全卷积网络（FCN）的出现。在另一个图像领域的著名图像分割任务数据集VOC上，FCN刷新了该数据集的最优指标，引爆了深度学习在图像分割领域的应用。

图像分类与图像分割的突破带来了另一个行业的突破，那就是自动驾驶。早在2009年，谷歌就已经成立了负责自动驾驶业务的子公司Waymo，也是目前自动驾驶的巨头之一，其估值顶峰达到了1700多亿美元，可见自动驾驶行业在投资人心中的分量。

在国外，除谷歌外，特斯拉、苹果公司等科技巨头，奥迪、德尔福、通用汽车等汽车行业巨头，Uber、Lyft等网约车领域巨头也都在做自动驾驶研究。在国内，百度、Momenta、Pony.ai、地平线、驭势科技、图森未来等公司也在这一领域不断发力。

在深度学习出现之前，自动驾驶的水平主要停留在基于毫米波雷达及其他传感器的低阶水平，这个水平的自动驾驶是不可能真正解放司机注意力的；深度学习的出现带来了图像识别与图像语义分割理解的突破，让人们看到了实现L5级别完全自动驾驶的希望，也由此引起了自动驾驶行业的爆发。

3. 超越人类的AI智能体

2016年发生了另一起点燃深度学习浪潮的事件，那就是谷歌DeepMind研发的AI围棋手AlphaGo异军突起。

2016年3月，AlphaGo与围棋世界冠军、职业九段棋手李世石进行围棋人机大战，以4:1的总比分获胜；
2016年年末至2017年年初，该程序以Master为注册名与中日韩数十位围棋高手进行快棋对决，连续60局无一败绩，被称为Alpha Master；
2017年5月，在中国乌镇围棋峰会上，它与当时排名世界第一的世界围棋冠军柯洁对战，以3:0的总比分获胜。

围棋界公认AlphaGo的棋力已经超过人类职业围棋顶尖水平，在GoRatings网站公布的世界职业围棋排名中，其等级分曾超过排名人类第一的棋手柯洁。

AlphaGo的出现让人们进一步意识到了深度学习的无限可能。2019年3月，ACM正式宣布将2018年图灵奖授予Yoshua Bengio、Geoffrey Hinton和Yann LeCun，以表彰他们提出的概念和工作使得深度学习神经网络有了重大突破。这也使得人们对深度学习的热情进一步发酵，让更多的研究开始往这个领域倾斜与投入。

4. 懂你的AI

近几年，深度学习领域的热门研究主要集中在以下几个方向：生成对抗网络、迁移学习、强化学习、联邦学习以及AutoML。

其中，在算法方面，谷歌提出的注意力机制以及基于该思想衍生出的BERT模型大幅刷新了自然理解领域所有数据集的评价指标，业内对此做出这样的评价：“自然语言处理是未来深度学习领域皇冠上的明珠。”

基于底层语言理解模型的突破，让机器翻译、人机对话、文本分析、AI音乐、AI写作等许多过去不可想象的任务都成为可能。

5. 奔跑、飞行以及玩游戏的AI

让机器为人类服务是人类一直以来的美好梦想，随着深度学习的发展，这个梦想正在逐渐实现。过去为了要让机器具有智能，需要人为赋予其大量的逻辑判断命令；而如今伴随着图像技术的成熟以及深度强化学习的应用，机器人在路上飞速奔跑、识别并跨越障碍物，乃至花式跳舞都已经成为现实。

除此之外，AI机器人还能够与玩家联机对战《星际争霸》，并且一般的职业选手都没法战胜它。另一个值得关注的是京东正在打造的无人送货机，它能够自动规划路线、躲避障碍、识别目标客户并完成货物投递，是非常值得期待的一项新型服务。

6. 人人都可以创造属于自己的AI

以上的种种发展都证明了，AI是这个时代不可阻挡的一个趋势。然而就当下而言，由于AI是一个较为新潮的事物，实现起来的技术难度较大，因此在各行各业的普及难度也较大，但是能够让AI开花结果的正是非IT领域的各行各业。

另外，目前拥抱AI的都是主流的大公司或者科技含量较高的创业公司，而传统的行业则缺乏相应的资源及人才。为了普及人工智能，降级人工智能的门槛，并且方便人工智能的开发，实现人人都会人工智能，自动化机器学习（AutoML）这个概念应运而生。

AutoML是一个自动模型学习的平台，其核心思想是自动化创造AI模型，把中间的复杂流程与烦琐的步骤都交给机器来自动完成，使用者只要指定输入的数据和任务类型即可。

当前许多企业通过这种技术自动化生成了许多优秀的模型，例如小米公司通过神经架构搜索技术得到了最优的图像超分辨率模型，用于在手机端提升图像质量。除此之外，微软、亚马逊、谷歌、Salesforce等公司也都为顾客提供了类似的平台，使得对AI不那么熟悉的人也可以方便地应用AI技术并使其在自己的行业内落地。

02 深度学习的发展

随着深度学习的应用越来越广泛，3个成熟的研究领域逐渐形成，分别是计算机视觉、自然语言处理以及语音领域，目前AI创业公司也主要集中在这些领域。下面我们就重点展开来介绍这3大应用领域。

1. 计算机视觉

计算机视觉（Computer Vision，CV），顾名思义就是计算机拥有像人类一样“看”的能力。在这里“看”的具体含义是指：不仅要将当前的图像输入到计算机中，计算机还应该具有智力，可以根据要求针对当前图像输出一定的分析结果。

这个过程可以定义为几个核心任务：目标分类、目标检测、目标分割以及目标跟踪。

目标分类（Target Classification）

就是基于分类任务的目标识别问题，即计算机根据给定的数据，找出这些数据中哪些是所需的目标。例如，猫狗分类问题或者花草分类问题。

这也是深度学习领域中最简单的一类任务，根据最后的分类函数可以将此任务分为二分类问题和多分类问题。目标分类任务是其他任务的基础，也是很多初学者的入门级任务。

目标检测（Target Detection）

可以看成是分类和回归问题的统一。该任务不仅要判断当前图像的所属类别，还要通过包围框（bounding box）标出图像中目标的具体位置。

目标检测问题由来已久，基于深度学习的发展从2013年R-CNN算法的提出开始，不断演变出了一系列多步检测网络。之后很多研究学者对网络进行了改进，提出了单步检测，将分类、定位、检测功能都集成在一个网络中，如Yolo、SSD等。目标检测任务的应用十分广泛，经常应用于电力系统检测、医疗影像检测等。

目标检测任务根据问题的复杂性，衍生出了人脸检测问题。与传统目标检测问题不同的是，人脸检测需要实现人脸关键点的定位和检测，现在移动设备中应用比较广泛的人脸识别系统就是基于这一任务研究而来。

目标分割（Target Segmentation）

就是将一张图像中的特定目标的区域分割出来。在深度学习领域中，目标分割的研究方向主要分为两类：语义分割和实例分割。

所谓语义分割就是针对图像中的每个像素点进行分类，即判断图像中哪些像素属于哪个目标。

而实例分割是语义分割的进阶版，它不仅要判断哪些像素属于目标，而且要判断哪些像素属于第一个目标，哪些像素属于第二个目标，目前在医疗影像项目中的关键就是对人体器官的分割。常见的图像目标分割网络有FCN和U-Net，其中，U-Net常用于医疗图像分割。

目标跟踪（Target Tracking）

是一个基于时间序列的目标定位问题，通常是基于视频数据的任务，常用于智能监控系统、嫌疑犯追逃等。首先是在第一帧图像中锁定目标，在之后的时序数据中，不断地对目标进行重定位。

这是一个非常复杂的问题，需要用到目标检测和分割任务，而且根据时序相关性进行有效建模，可以减少定位过程中的计算量，提高追踪效率。

我们介绍了这么多计算机视觉的定义及任务，那么它与图像处理有什么异同呢？

严格来讲，图像处理是一种数字信号处理，它不涉及对图像内容的理解，一般是通过数学函数等对图像进行变换或增强，如归一化图像、图像预处理、消除图像噪声等；而计算机视觉是使用计算机模拟人类视觉，该模拟过程包括学习以及推理能力。

计算机视觉离不开图像处理操作，因此可以将图像处理看成计算机视觉的一个子集，当目标是对图像进行增强时，可以称为图像处理，当目标是检测和分割等时，则称为计算机视觉。

计算机视觉任务看似容易，但也存在很多潜在的挑战。因为我们人眼每天看到的景象是错综复杂的，我们的视觉和大脑的判别是同步进行的，但对于计算机而言，虽然经过了很多学者的研究，其仍无法达到人类视觉的能力。

而且，感官世界极其复杂，任何光照条件或者遮挡都可能会造成计算机识别任务的失败。因此，计算机视觉仍然有很长的一段路要走。

2. 自然语言处理

如果说计算机视觉是模拟人类“看”的能力，那么自然语言处理（Natural Language Processing，NLP）就是模拟人类的“语言”能力，这里的“语言”是指说话和写作能力。站在专业的角度来讲，NLP就是以一种智能高效的方式对人类创造的文本数据进行系统地分析、理解和提取信息的过程。

NLP的研究任务很广泛，在本书中我们将它分为5大类：词法分析、句子分析、语义分析、信息抽取和顶层任务。

词法分析就是以词为单位对数据进行分析，这是NLP中最基本的工作。常见的词性标注和拼写校正任务就属于词法分析。
句子分析就是以句子为单位的分析任务。
语义分析就是通过对文本数据的分析，生成对应文本数据的语义信息的形式化表示，常见任务有词义消歧等。
信息抽取是NLP任务中应用最广泛的一个，简单理解就是从非结构化的文本数据中抽取出用户所需的结构化信息。常见任务有命名实体消除、情感分析、实体消歧等。
顶层任务就是直接面向用户的任务，比如机器翻译或文本摘要，它需要多种任务结合生成对应的可以直接读取的输出结果。另外顶级任务还包括对话系统、阅读理解等。

NLP机制涉及两个流程：自然语言理解和自然语言生成。我们都知道文本数据是非结构化语言，而计算机擅长处理的是结构化数据。所以在NLP机制中，计算机首先需要从非结构化数据中进行读取，转化成结构化数据，通过语法知识和规则进行理解，然后将结构化数据进行组合，生成通顺的非结构化文本。

NLP的应用非常广泛，比如微博的热点推荐，就是通过用户对应的信息和经常浏览的信息进行情感分析，个性化推荐当前热点。另外邮件的垃圾分类、用户体验反馈等也都是通过自然语言处理技术实现的。

3. 语音识别

我们的目标不仅仅是让计算机有“看”和“语言”的能力，还要让计算机拥有“听”和“说”的能力，因此还需要语音识别（Voice Recognition）。语音识别的目标是将一段自然语言通过声学信号的形式传给计算机，由计算机理解并且做出回应。

语音识别系统主要包含特征提取、声学模型、语言模型、字典与解码4大部分。

其中特征提取需要对采集的声音信号进行滤波、分帧等音频预处理工作，目的是将要进行分析的音频信号合适地从原始信号中提取出来。

语音识别的过程可以概括如下：

根据特征提取将声音信号从时域转换到频域，从而为声学模型提供合适的特征向量；
再由声学模型根据特征向量来判断其属于哪个声学符号；
然后利用语言模型来判断声学符号可能属于哪个词组序列；
最后根据已有字典对词组序列进行解码，从而得到最后的文本表示。

在人机交互的过程当中，计算机除了能通过语音识别技术来“听懂”人们对它说的话，还需要能够将文本信息用人们能听懂的方式表达出来。在这样的需求下，语音合成技术应运而生。语音合成技术能够利用计算机等设备将文本信息转换为人们能听懂的音频数据，再通过语音的方式播放出来。

声纹识别是语音识别领域的又一个研究方向。与语音识别不同，声纹识别属于生物识别技术的一种，它根据语音波形中反映说话者生理和行为特征的语音参数，通过连接声纹数据库来鉴别人的身份。

因此，声纹识别不注重语音信号的语义理解，而是从语音信号中提取个人声纹特征，并从中找出能够唯一辨别（声纹识别的理论基础是每一个声音都有自己的特征，该特征能将不同人的声音进行有效地区分）说话者身份特征的信息。

语音识别有很广阔的应用场景和发展空间，如：

行车导航软件通过语音合成技术为司机指引道路、播报路况，人们甚至可以选择用自己喜欢的明星的声音来播报软件内容；
智能家居系统利用语音合成技术能够实现与用户的实时交流，人们可以从智能家居的“嘴”中得知家中的一些基本情况，大大提高了生活质量；
在智能教学领域，学生能够利用语音合成技术跟读单词、句子，语音辅导软件的出现大大方便了教学过程，提高了教学质量。

人人都可以创造自己的AI：深度学习的6大应用及3大成熟领域

相关推荐

热门文章

热门标签

回顶部