AI智能
改变未来

用最简单的方式推开AI的大门


智能是现代生活中一个很常见的词,例如智能手机、智能家居、智能机器人等,但是不同的场合智能的含义也不一样。我们所说的“人工智能”(Artificial Intelligence, AI)则是指让机器像人一样思考,具备人类的智能。

人工智能的主要包含几个部分:首先是感知,包括视觉、语音、语言;然后是决策,例如做出预测和判断;最后是反馈,如果想做一套完整的系统,就像机器人或是自动驾驶,则需要一个反馈。

本文站到框架的角度上,为读者梳理清楚人工智能的基本概念以及一些常见的算法过程和功能,让零基础读者能快速入门人工智能!

1、人工智能:是研究、开发用于模拟和扩展人的智能的理论、方法的一门新的技术科学。它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,使该机器能够胜任一些通常需要人类智能才能完成的复杂工作。人工智能在科学界普遍认为起源于1956年的达特茅斯会议,至今已经经历的三起三落。如今随着硬件的发展,计算机算力显著提升,创造了良好的AI发展条件,使得人工智能迎来了新一次浪潮。但是我们还是必须认识到,我们仍处于弱人工智能时代,在人工智能这条路上我们仍然还有很长的路要走。

【图片来源网络,侵删】

2、机器学习:是人工智能的核心,是使计算机具有智能的根本途径。使用计算机作为工具并致力于真实、实时的模拟人类学习方式, 并将现有内容进行知识结构划分来有效提高学习效率。其基本步骤就是利用已标记好的数据,训练一个模型,然后将新数据输入该模型中,可以得到一个预测结果,其结构如下。

【图片来源网络,侵删】

3、深度学习:是机器学习领域中一个新的研究方向。深度学习的概念源于人工神经网络的研究,含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习最为代表的就是神经网络结构。下面给出人工智能、机器学习、深度学习三者关系。

【图片来源网络,侵删】

4、强化学习:又称再励学习或评价学习,常见模型是标准的马尔可夫决策过程,属于无监督学习。用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。通俗点说,就是计算机先做一件事,然后环境来给它打分,做的好就加分,做的不好就扣分。例如,对于无人驾驶来说,在红灯路口停下可以加分,也就是得到奖励;与此相反,如果闯了红灯就得扣分,也就是得到了惩罚。计算机渴望得到尽可能多的奖励而避免惩罚的过程,就被称为强化学习。

【图片来源网络,侵删】

5、监督学习与无监督学习:主要看给定的数据集是否带有数据标签。监督学习是传统机器学习方式,给定的数据都需要标有明确的标签,用于训练一个预测模型;而无监督学习常见于聚类和强化学习之中,给定的数据一般不带有标签,比如聚类就可以通过算法将不同种类的数据集成在一起。

6、机器学习算法:线性回归、逻辑回归、K-近邻(KNN)算法、决策树算法、朴素贝叶斯、支持向量机(SVM)算法、K-Means算法、主成分分析(PCA)算法、协同过滤算法等等。下文将用最简单的话语解释这些算法。

7、线性回归:是指确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,通过建立一个回归方程(函数)来估计特征值对应的目标变量的可能取值。堪称AI入门必学的波斯顿房价预测,使用的就是线性回归方法。最常见的是线性回归方程:y = a * x + b,当然除了这种直线型,还有多元线性回归,其模型是一个函数曲线,具体内容留到后面详细讲解。

【图片来源网络,侵删】

8、线性回归的求解过程:设方程 y = a * x + b,线性回归的求解过程就是求解回归系数 a 和 b 的过程,并且使误差最小。其中使用损失函数来表示模型误差,采用梯度下降算法来寻找损失函数的最小值,也就是误差最小值。这里提到两个概念,一个是损失函数,一个是梯度下降,这个要系统解释需要很大的篇幅,所以后面我会单独写一篇相关的文章用于详细介绍,此处有一个直观印象就好。如下图,蓝色点代表真实值,而红色点代表预测值,r1、r2、r3 分别表示 y1、y2、y3 预测值与真实值之间的误差,线性回归要做的就是使得误差之和最小,而求其最小的方法就是使用梯度下降算法。

【图片来源网络,侵删】

9、过拟合与欠拟合问题:过拟合是指为了得到一致假设而使假设变得过度严格,从而丧失一般性的现象。当回归方程中有过多变量,同时只有非常少的训练集时,就会出现过度拟合的问题,所以可以通过控制关键变量数目来达到避免过拟合的效果。与之相对的是欠拟合,欠拟合是指模型误差过大,导致预测结果极度不精确的现象。在训练模型中,我们既要避免过拟合问题,也要防止欠拟合问题,如下图1表示欠拟合问题,图2表示过拟合问题,只要图3才是我们需要的好的预测模型。

【图片来源网络,侵删】

10、正则化解决过拟合问题:对模型添加正则化可以限制模型的复杂度,使得模型在复杂度和性能间达到平衡。正则化可以看作损失函数的惩罚项,所谓的惩罚就是损失函数中的某些参与加以限制。正则化的概念比较复杂,后面我会专门写一篇文章介绍拟合与正则化。在这里,你只需要明白正则化是用来解决过拟合问题的就行了。

11、逻辑回归:虽然名字叫回归,但却属于分类算法,是通过Sigmoid函数将线性函数的结果映射到Sigmoid函数中,预估事件出现的概率并分类。Sigmoid函数是一个激活函数,可以把连续数值收敛至[0,1]的范围,提供了一种将连续型的数据离散化为离散型数据的方法。这里提到了Sigmoid函数,它的公式你暂时不需要知道,你需要知道的就是它是一个激活函数就行,如下图,一条直线将心脏病患者和非心脏病患者就区分开了,这就是逻辑回归要完成的任务。

【图片来源网络,侵删】

12、线性回归和逻辑回归的比较:虽然逻辑回归能够用于分类,不过其本质还是线性回归。它仅在线性回归的基础上,在特征到结果的映射中加入了一层sigmoid函数(非线性)映射,即先把特征线性求和,然后使用sigmoid函数来预测。它们最大的区别在于,线性回归用于预测任务,而逻辑回归用于分类任务。

13、K-近邻算法:用距离度量各相邻的分类标签,然后取前K个最近的分类标签,求得这K个分类标签中出现频率最大的类别,可近似将该类别作为待预测目标的类别。K-近邻(KNN)算法是最最最简单的一个算法,不需要进行模型训练,每一次预测都度量检测样本与训练样本之间的差值,寻找最大可能的所属类别。虽然其算法思想简单到爆炸,但是,由于其每次预测都要比对所有样本,所以效率极低。如下图,绿色矩阵前5个距离中有两个五角星,三个三角形,所以就可以判定绿色矩阵归属于蓝色三角形类别。

【图片来源网络,侵删】

14、决策树:通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程。这一过程对应着对特征空间的划分,也对应着决策树的构建。决策树可细分为分类决策树和回归决策树,分别用于做分类任务和回归预测任务。比如一个女生在相亲的时候,先看看对方男生有没有车,有车再继续,没有就say goodbye了;有车后看看有没有房,有房再继续谈,没有的话一样say goodbye;最后看看对方男生有没有存款,有的话,好,相亲成功,没有的话,还是say goodbye,相亲失败,扎心了。

【图片来源网络,侵删】

15、信息熵:度量信源整体的不确定的。熵越小,样本的纯度越高,所以决策树的生长过程也是不断的将数据的不纯度降低的过程。希望最后得到的分类结果纯的很高,也就是准确性很高。在决策树的枝叶上,已经有了明确的结果,此时信息熵为零。

16、分类决策树算法:ID3算法使用信息增益作为选择特征的准则,信息增益 = 划分前熵 – 划分后熵;C4.5 使用信息增益比作为选择特征的准则,信息增益率 = 信息增益 / 划分前熵。之所以引入了信息增益比,是由于信息增益的一个缺点。信息增益总是偏向于选择取值较多的属性。信息增益比在此基础上增加了一个罚项,解决了这个问题。决策树算法,后面我会详细写一篇文章用于介绍,此处知道即可。

17、CART算法:全称为分类和回归树,既可以做分类任务,也可以做回归任务,但生成的树必须是二叉树。CART 使用 Gini 指数作为选择特征的准则。Gini 指数表示集合的不确定性,或者是不纯度。基尼指数越大,集合不确定性越高,不纯度也越大。

18、回归树的构造:回归树构造的整体流程与分类树类似,不过回归树在每个结点(不一定是叶子结点)都会得到一个预测值,该预测值等于属于该节点的所有样本属性的平均值。回归树用于做预测任务,跟线性回归的功能类似。

19、朴素贝叶斯:利用贝叶斯公式,计算可选项的后验概率,选择后验概率最大的类为分类标签。主要应用有文本分类、垃圾文本过滤,情感判别,多分类实时预测等。下面举出一个实例,大家看完后自然就懂了。此处涉及了概率论相关知识,但不展开详细讲解,后面我会出一篇专门的人工智能所需要掌握的数理基础文章。下面的例子来自于 阿里的天池AI学习

20、贝叶斯网络:是一个有向无环图模型,每一个节点代表一个变量,节点间的联系组成了贝叶斯网络语义,此外还包括条件概率表(CPT)。它是一种模拟人类推理过程中因果关系的不确定性处理模型。这里看不懂没关系,此处,你把它理解为 有向图+贝叶斯 即可,后面会详细讲解贝叶斯网络的构成。

【图片来源网络,侵删】

21、支持向量机:属于监督式的二分类算法。当一个分类问题,数据是线性可分时,只要将线的位置放在让小球距离线的距离最大化的位置即可,寻找这个最大间隔的过程,就叫做最优化。一般的数据是线性不可分的,可以利用核函数,通过核方法,将数据从二维映射到高维,通过超平面将数据切分,即把非线性分类转化为线性分类的过程。这个我认为是传统机器学习算法中最难的了,此处只需要知道它是用来做分类任务的,并且是为了找到最优的那个划分界限而设计的算法就行,后面我会花大篇幅详细讲这个算法。如下两种划分都可以将训练样本区分开,但是明显第二个图的划分更好,支持向量机(SVM)就是来找这个最优划分的算法。

【图片来源网络,侵删】

22、K-Means算法:属于非监督式的聚类算法,这是我们目前为止学到第一个非监督式算法。对于没有标记的数据集,能够自动的将相同元素分为紧密关系的子集或簇,这就是聚类算法。算法步骤:随机生成k个初始点作为质心;将数据集中的数据按照距离质心的远近分到各个簇中;将各个簇中的数据求平均值,作为新的质心(可以是不存在的点),重复上一步,直到所有的簇不再改变。关于K的选择,经典的方法有“肘点法”,即损失函数拐点处。如下图,对照算法步骤过一遍,就很容易理解这个算法了。

【图片来源网络,侵删】

23、PCA降维:降维是指将原高维空间中的数据点映射到低维度的空间中。因为高维特征的数目巨大,距离计算困难,分类器的性能会随着特征数的增加而下降;减少高维的冗余信息所造成的误差,可以提高识别的精度。而主成分分析(PCA)算法通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。它能从冗余特征中提取主要成分,在不太损失模型质量的情况下,提升了模型训练速度。

【图片来源网络,侵删】

24、协同过滤算法:是一种基于近邻的推荐算法,根据用户在物品上的行为找到物品或用户的“近邻”,即用户在物品上的行为–>同类用户/同一用户可能喜欢的不同物品。故协同过滤可分为:基于用户的协同过滤和基于物品的协同过滤,但基于物品的协同过滤用的更多。后面会花一个单独的篇章将过滤算法。

【图片来源网络,侵删】

25、感知机算法:是一种很好的二分类算法,它要求模型是线性可分的,感知机对应于在输入的空间中将实例划分成正负样本,最早的感知机成功应用于与或门的运算。通俗点讲,一个简单的感知机就是输入值(x_i)和权值(w_i)乘积的累加,然后讲累加值放入一个激活函数中而已。如下图,将 sum(x_i,w_i) 的值放入了激活函数中,如果 sum(x_i,w_i)>0的话,激活函数会返回一个1,否则返回一个0。在这个阶段,你能看懂这副图就行。

【图片来源网络,侵删】

26、人工神经网络:是感知机发展的产物,它是模拟人脑神经网络而设计的模型,由多个节点(人工神经元)相互联结而成,可以用来对数据之间的复杂关系进行建模。不同节点之间的连接被赋予了不同的权重,每个权重代表了一个节点对另一个节点的影响大小。每个节点代表一种特定函数,来自其他节点的信息经过其相应的权重综合计算。如下图,一个完整的人工神经网络应该包含输入层(input)、隐藏层(hidden)和输出层(output)。其中输入层用来获取数据,隐藏层用来计算数据,输出层用的得到结果,可以看到隐藏层可以不止一个,并且隐藏层的每一个节点都是一个感知器模型,这一段比较复杂,建议你结合上面感知机算法好好消化一下。

【图片来源网络,侵删】

27、卷积神经网络:卷积神经网络现在十分火热,广泛应用于物体识别等领域。它是在人工神经网络的基础上进行改进的,卷积神经网络的输入不再是一个个神经元,而是一整张图片,即一个二维矩阵;边权由卷积核所代替,可以大大节省计算时间,至于为什么在后面我会详细介绍;它的每一层计算过程包括卷积、池化、激活函数,最后经由全连接层,得出目标分类。此处理解大意即可,后面会详细介绍

【图片来源网络,侵删】

参考资料: 阿里的天池AI学习、吴恩达老师的机器学习课程、李航老师的《统计学习方法》、百度搜索等

好啦!到此为止,我相信你对人工智能的基本概念应该已经有了一个初步了解,并且对于传统机器学习算法和神经网络算法也有了一个整体上的认知。本篇文章是站到构建框架的角度上,让读者对全局能有一个清晰的认知,同时也是一篇引子,后面一段时间内,我会依照这篇文章上面的内容,对各个算法展开讲解,并且尽可能每个算法配套一个小项目,让大家能在理解的基础上自己动手实践出来。

在学习接下来的内容之前,请自学好Python语言和它的科学计算库。如果你需要相关教程的话,可以我的主页找到,并且为了照顾部分使用Linux系统的小伙伴,前面的文章也包含了快速入门Linux基础命令的教程,有需要的小伙伴自取哦。笔者才疏学浅,如果哪里有错误,望大大们指出!

最后,码字不易,如果你喜欢我的文章,别忘记点赞和收藏哦,如果想及时看到我更新的文章,也可以给我一个关注,望一起学习一起进步,早日变得和琦玉老师一样强!

赞(0) 打赏
未经允许不得转载:爱站程序员基地 » 用最简单的方式推开AI的大门