机器学习入门之机器学习实战入门篇之一：机器学习中必会的基础概念！-职坐标

机器学习入门之机器学习实战入门篇之一：机器学习中必会的基础概念！

小标 2019-01-11 来源：阅读 1357 评论 0

摘要：本文主要向大家介绍了机器学习入门之机器学习实战入门篇之一：机器学习中必会的基础概念！通过具体的内容向大家展现，希望对大家学习机器学习入门有所帮助。

本文主要向大家介绍了机器学习入门之机器学习实战入门篇之一：机器学习中必会的基础概念！通过具体的内容向大家展现，希望对大家学习机器学习入门有所帮助。

机器学习非常重要

我不断地告诉大家，未来十年最热门的职业是统计学家。很多人认为我是开玩笑，谁又能想到计算机工程师会是20世纪90年代最诱人的职业呢？如何解释数据、处理数据、从中抽取价值、展示和交流数据结果，在未来十年将是最重要的职业技能，甚至是大学，中学，小学的学生也必需具备的技能，因为我们每时每刻都在接触大量的免费信息，如何理解数据、从中抽取有价值的信息才是其中的关键。这里统计学家只是其中的一个关键环节，我们还需要合理的展示数据、交流和利用数据。我确实认为，能够从数据分析中领悟到有价值信息是非常重要的。职业经理人尤其需要能够合理使用和理解自己部门产生的数据。

——MaKinsey Quarterly, 谷歌首席经济学家，2009年1月

何谓机器学习

简单地说，机器学习就是把无序的数据转换成有用的信息。

学习机器学习需要哪些基础

计算机科学

统计学

数学等

机器学习的分类

监督学习

在监督学习过程中，我们只需要给定输入样本集，机器就可以推演出指定目标变量的可能结果。监督学习相对比较简单，机器只需要从输入数据中预测合适的模型，并从中计算出目标变量的结果。之所以称之为监督学习，是因为这类算法必须知道预测什么，即目标变量的分类信息。

根据目标变量的类型，可以再将监督学习分为分类和回归。

-分类

适用于标称型目标变量，标称型目标变量的结果只有在有限目标集中取值，如上图中的文艺青年和普通青年，也就是说目标变量是离散的。

分类.jpg

-回归

适用于数值型目标变量，数值型目标变量的结果只有在无线目标集中取值，如{0,0.01,0.02,0.03,.....}，也就是说目标变量是连续的，如下图的数据曲线拟合就是回归的一个例子。

回归.png

无监督学习

与监督学习相对应的是无监督学习，此时不会给出目标值，根据应用程度不同，无监督学习可以分为聚类和密度估计。

-聚类

将数据集合分成类似的对象组成的多个类的过程称为聚类。

-密度估计

密度估计除了完成聚类所要完成的目标之外，还要估计测试数据与每个分组的相似程度。

例如，给定10000个人的样本数据，利用无监督学习算法将这10000个人进行分类，这个就是聚类，而如果要计算你是属于哪个group，并计算相似程度这就是密度估计。

如何选择合适的算法？

根据前面的描述，那么问题来了，如果给你一个问题，你改如何选择算法呢？是使用监督学习算法还是无监督学习算法？是使用分类问题？回归问题？聚类问题？还是密度估计问题？具体选择依据如下图所示，但是我们只能在一定程度上缩小算法的选择范围，哪种算法最优还需要不断尝试。

如何选择合适的算法.png

机器学习开发流程？

如下图所示。

开发机器学习应用程序步骤.png

机器学习入门阶段自学路线

《机器学习实战》

书中主要讲了数据挖掘的十大算法，如C4.5决策树、K-means聚类算法、支持向量机（SVM）、Apriori、最大期望算法（EM）、AdaBoost算法，kNN算法、朴素贝叶斯算法等等。个人认为这本书非常适合入门，没有很多的数学知识，但是比较实用。看完这本书，至少能吹吹水了，而不用每次同学谈论SVM等都一脸懵逼。

Coursera上的吴恩达的机器学习公开课

本文由职坐标整理并发布，希望对同学们有所帮助。了解更多详情请关注职坐标人工智能机器学习频道！

大数据和人工智能前景对人工智能的前景人工智能大会

本文由 @小标发布于职坐标。未经许可，禁止转载。