弗兰克·凯恩

什么是机器学习?简单地说,机器学习描述了真实世界的数据训练,建立预测模型的计算机算法。

尽管这是人工智能(AI)的一个分支,机器学习并不复杂,因为它看起来。举一个简单的例子,假设我们已经收集了100余人的身高和体重数据。我们称之为我们的训练数据。我们可以用测量到的高度在x轴上,重量在y轴上,将收集到的数据绘制成图表,如下图所示。

机器学习,数据科学与深学习与Python

最后更新2020年8月

  • 111个讲座
  • 初学者级
4.5 (22044)

完成动手机器学习教程,数据科学,Tensorflow,人工智能和神经网络|通过Sundog带来教育弗兰克·凯恩,凯恩弗兰克

探索课程

这个图上的每个点代表了一个给定的人的身高和体重。一个简单的机器学习算法可以将一条线与这些数据拟合。然后,我们可以利用这条线根据新人们的身高来预测他们的体重。把它想象成一个高中的数学问题。一条直线的方程是Y = mx + b中,其中是直线的斜率和b是y截距。一个名为机器学习算法线性回归可以用来学习的最佳值b以符合我们的数据。在这种情况下,我们得到y = 2.75x + 16.5,结果是这样的:

现在,我们已经了解到,最适合我们的训练数据线,就可以在新的高度值插x并产生权重的预测上y。见简单的机器学习如何呢?

机器学习的类型

有不同类型的机器学习最适合于不同种类的问题。他们一般分为两类:监督和无监督的 - 但有时我们将二者结合起来为好。

监督机器学习

我们上面看到的线性回归是一个例子监督学习。这意味着我们的训练数据包含了我们试图预测的事情的已知的、正确的答案。对于线性回归模型训练的每个人,我们知道他们的体重给定他们的身高。它被称为监督因为我们可以很容易地评估我们的模型是多么好,而它正在通过比较知道正确答案的训练。大多数的机器学习算法陷入被动学习范畴,包括回归,决策树,XGBoost,等等。

在机器学习的世界里,我们试图预测的就是标签。所以,我们说,监督机器学习涉及标签训练数据。

非监督机器学习

有时,我们试图在我们拥有的数据中发现看不见的模式。例如,描述一组文档的更广泛的主题是什么?我们能根据电影的情节总结和剧本有多相似来对电影进行分类吗?我们可能不知道哪些主题或电影类型是超前的,但无监督学习技术可以揭示它们。调用这些未知属性潜在功能。技术,例如K-均值聚类,主成分分析,潜狄利克雷分配,和K-近邻可用于揭示这些潜在特征。

由于我们不知道提前正确答案,无监督算法使用未标记训练数据。

半监督学习

现实世界的项目并不总是那么简单。假设您有一组大量的训练数据,但是其中只有一部分带有标签(已知的正确答案)。这是很常见的情况;许多问题需要人类对数据进行标记,然后才能将其用于训练机器学习算法。例如,训练一个图像识别系统可能需要人类在一组用于训练系统的图像中手动分类物体。然而,你可能有更多的图片需要标记比你实际能够标记,因为你只有这么多的人。

这其中,半监督学习的用武之地,你可以使用监督学习训练一个模型,受让人标签,标签数据的基础上,它接收人体产生的标签。随着时间的推移,我们可以比较有监督算法由人类制造的标签生产的标签。当他们开始同意,我们可以使用监督型号标注在该模型具有较高的置信度情况下,我们的训练数据,而不是人类。这些机器生成的标识被称为伪标签

由于我们的训练数据现在包含人类和数据分配已知的标记,是由一个模型推断的混合物,这些模型被称为半监督

什么神经网络?

神经网络不完全适合上述机器学习的类别。相反,它们是可以使用的有监督,无监督和半监督学习高度灵活的算法。如果你正在寻找一个尺寸适合所有的机器学习算法,可以解决几乎所有问题,神经网络是它。

神经网络是由人类大脑的生物学的启发,尽管现代神经网络从他们的生物同行相当分歧。今天,神经元仍然是如何理解的神经网络工作的有用的比喻,但引擎盖下,他们基本上是由已经为最好的结果优化线性代数和微积分驱动。

从概念上讲,你可以把神经网络想象成层层相互连接的虚拟“神经元”。这是一个神经网络架构的例子:

这个假想的网络将被用来根据它们对事物进行分类特性。也许我试图预测哪些类型的影片是根据导演和参与它的行动者。我们喂那些特性 - 演员和导演 - 进入底部这个神经网络。一旦网络进行训练,它会产生电影在顶部的输出许多不同的流派之一是概率。

图中的每个圆圈代表一个神经元,尽管现在它们大多被称为“单位”。在这个网络的顶部和底部之间是几层神经元,它们都是相互连接的。每个神经元的工作是总结所有进入它的信号(这就是Sigma符号的意思)并应用激活功能决定什么信号被输出到下一层(这是弯曲的线代表)。

当我们训练他们学习每个神经元之间的最佳重量和偏见神经网络的奇迹发生。所谓的技术梯度下降法用于查找要分配给每个连接的最佳权重。由于有许多不同的权值可以有许多不同的值,神经网络可以代表非常复杂的问题。我们最终得到的大量混杂的权重使得我们很难直观地理解为什么一个给定的训练过的神经网络会产生它所能得到的答案,但它通常运行得很好。

神经网络已经占据机器学习近年来的研究,因为它们非常灵活,可以适用于各种复杂的问题。然而,他们并不总是最佳的解决方案,并调整它们的最佳性能是非常具有挑战性。

什么人工智能?

神经网络,人工智能和机器学习经常互换使用 - 但它们是不同的东西。

AI比机器学习的一个更广泛的类别。早期的尝试在AI没有使用机器学习的所有算法;相反,许多人基于规则的系统。早期的对话机器人实际上是由对一组关键字的预先编程的回答组成的,他们可以根据所问的问题引用这些关键字。如果您说“高兴”这个词,机器人可能会有一个人类生成的规则来响应“我很高兴您对此感到满意!”“像这样的人工智能系统的行为是被明确编程的,而不是在运行过程中学习的东西。

现代AI倾向于更多地依赖于机器学习,其中的神经网络是几种方法之一。神经网络可以了解到,以“我感到高兴”适当的回应是:“我很高兴你感觉良好,认为”正是基于其培训过程中的反馈意见。

神经网络是不是在人工智能领域唯一使用的机器学习技术。另一种流行的算法称为强化学习,其学习基础上的训练中做出决定的后果不同状态之间做出选择的最佳方式。例如,强化学习系统可以学习如何通过尝试随机移动,并观察这导致了鬼和被杀害导致寻找动力药,吃鬼玩吃豆人。当你阅读,在视频游戏或棋盘游戏击败人类,这可能强化学习使用技术AI系统的故事。

复杂的AI系统,如自动驾驶汽车,可以结合不同的技术。神经网络可以用来识别路牌,同时强化学习是用来学习如何最好地导航的街道,并在那里有基于规则的系统大概很多了。

因此,我们的工作方式了,神经网络是机器学习的一个子集,和机器学习是人工智能的一个子集。他们是不一样的东西。

机器学习的肮脏的秘密

机器学习研究的世界充斥着花哨的数学、算法和术语——但这背后隐藏着一些令人不快的事实。如果你进入现实世界的机器学习领域,你会发现玩弄算法只是工作的一小部分。

尽管复杂的算法,成功的机器学习系统在很大程度上是试错的结果。我们给这个奇特的名字:超参数调整。这些模型通常有很多超参数如学习率,你的神经网络有多少层了,多少神经元都在每一层 - 并且有很少的好办法知道这些参数的最佳值是针对给定的问题。机器学习从业者调整他们的模型,只是想各种各样的这些参数,并看到其中最有效的实验的组合。在一天结束的时候,它在墙上扔了一堆隐喻的意大利面条和看到的坚持。没有什么花哨有关!

真实世界的机器学习往往更多的数据比实际的机器学习处理。您所选择的算法和参数比数据的质量那么重要,你训练你的机器学习系统的。数据科学家往往花费更多的时间来分析和清洗用来训练系统比与算法本身的工作数据。这里有一个叫做整个学科特点工程专门准备和预处理训练数据,以产生最好的结果。这是典型的机器学习研究如何花费其大部分时间在现实世界中。数据分析,统计分析和处理数据缺失是工作的一个重要组成部分。当您添加使用云计算应用功能的工程,以海量数据的挑战,但它很快就应用机器学习困难的部分。

即使你选择最佳算法问题的能力可能是不重要的工作时。“AutoML”系统可以在训练数据尝试不同的算法,并自动计算出通过实验用最好的一个。它可以简单地提供你的训练数据的AutoML系统,对其执行自动调整超参数,并产生一个高度优化的机器学习系统,与您很少参与或专业知识。机器学习系统现在可以创建机器学习自己的系统!
对于人们新的领域,这是一个好消息 - 机器学习是更容易比以往任何时候都。但是,人们谁知道这是怎么回事引擎盖下与为什么怎么样机器学习的仍然是当今的就业市场非常有价值的。

在机器学习顶级球场

机器学习实践:6现实世界的应用
Kirill Eremenko, Hadelin de Ponteves, Dr. Ryan Ahmed,博士,MBA,超级数据科学团队,Rony Sulca
4.2 (1669)
在Python无监督机器学习隐马尔可夫模型
懒惰的程序员公司
4.6 (2666)
畅销书
Python中的贝叶斯机器学习:A/B测试
懒惰的程序员公司
4.5 (3792)
畅销书
用Javascript进行机器学习
Stephen主梁
4.7 (2014)
数据科学:Python中的监督机器学习
懒惰的程序员公司
4.6 (1895)
机器学习和AI:支持向量机在Python
懒惰的程序员公司
4.6 (579)
机器学习使用MATLAB数据科学
Nouman阿扎姆
4.6 (190)
机器学习和人工智能使用斯威夫特
穆罕默德·阿扎姆
4.4 (44)
机器学习实践锻炼|8真实世界的项目
瑞恩·艾哈迈德博士,博士,MBA,基里尔Eremenko,Hadelin德蓬特韦,SuperDataScience队,米切尔布沙尔
4.5 (618)
机器学习回归大师在Python
瑞恩·艾哈迈德博士,博士,MBA,基里尔Eremenko,Hadelin德蓬特韦,SuperDataScience队,米切尔布沙尔
4.6 (204)

更多的机器学习课程

机器学习的学生也学习

让你的团队。领导行业。

获取订阅的在线课程和数字学习工具库与您Udemy组织业务。

申请演示

弗兰克·凯恩课程

终极实践Hadoop——驯服你的大数据!
幻日教育弗兰克·凯恩,凯恩弗兰克
4.5 (21099)
畅销书
Apache的火花与斯卡拉 - 手在大数据!
幻日教育弗兰克·凯恩,凯恩弗兰克
4.5 (11518)
畅销书
用Spark流媒体& Scala流媒体大数据-动手!
幻日教育弗兰克·凯恩,凯恩弗兰克
4.6 (2703)
机器学习,数据科学与深学习与Python
幻日教育弗兰克·凯恩,凯恩弗兰克
4.5 (22031)
驯服大数据与Apache Spark和Python的 - 牵手!
幻日教育弗兰克·凯恩,凯恩弗兰克
4.5 (8885)
用MapReduce和Hadoop驯服大数据——动手!
幻日教育弗兰克·凯恩,凯恩弗兰克
4.4 (2421)
畅销书
用AWS Lambda构建一个没有服务器的应用程序-动手!
《Sundog Education》作者Frank Kane, Brian Tajuddin, Frank Kane
4.5 (1355)
弹性搜索6和弹性堆栈-在深度和手!
幻日教育弗兰克·凯恩,凯恩弗兰克
4.6 (2273)
构建带有机器学习和人工智能的推荐系统
幻日教育弗兰克·凯恩,凯恩弗兰克
4.5 (1348)
畅销书
自动驾驶汽车:Python语言中的深度学习和计算机视觉
幻日教育弗兰克·凯恩,凯恩弗兰克,瑞恩·艾哈迈德博士,博士,MBA,米切尔布沙尔
4.4 (646)
终极,非官方的Udemy在线课程创建指南
幻日教育弗兰克·凯恩,凯恩弗兰克
4.3 (110)
AWS认证数据分析专业2020 -动手!
Sundog教育由Frank Kane, Stephane Maarek | AWS认证解决方案架构师和开发助理,Frank Kane
4.6 (4527)
畅销书

弗兰克·凯恩课程