摘要:本文主要向大家介绍了机器学习入门之机器学习实战入门篇之一:机器学习中必会的基础概念!通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。
本文主要向大家介绍了机器学习入门之机器学习实战入门篇之一:机器学习中必会的基础概念!通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。
机器学习非常重要
我不断地告诉大家,未来十年最热门的职业是统计学家。很多人认为我是开玩笑,谁又能想到计算机工程师会是20世纪90年代最诱人的职业呢?如何解释数据、处理数据、从中抽取价值、展示和交流数据结果,在未来十年将是最重要的职业技能,甚至是大学,中学,小学的学生也必需具备的技能,因为我们每时每刻都在接触大量的免费信息,如何理解数据、从中抽取有价值的信息才是其中的关键。这里统计学家只是其中的一个关键环节,我们还需要合理的展示数据、交流和利用数据。我确实认为,能够从数据分析中领悟到有价值信息是非常重要的。职业经理人尤其需要能够合理使用和理解自己部门产生的数据。
——MaKinsey Quarterly, 谷歌首席经济学家,2009年1月
何谓机器学习
简单地说,机器学习就是把无序的数据转换成有用的信息。
学习机器学习需要哪些基础
计算机科学
统计学
数学等
机器学习的分类
监督学习
在监督学习过程中,我们只需要给定输入样本集,机器就可以推演出指定目标变量的可能结果。监督学习相对比较简单,机器只需要从输入数据中预测合适的模型,并从中计算出目标变量的结果。之所以称之为监督学习,是因为这类算法必须知道预测什么,即目标变量的分类信息。
根据目标变量的类型,可以再将监督学习分为分类和回归。
-分类
适用于标称型目标变量,标称型目标变量的结果只有在有限目标集中取值,如上图中的文艺青年和普通青年,也就是说目标变量是离散的。
分类.jpg
-回归
适用于数值型目标变量,数值型目标变量的结果只有在无线目标集中取值,如{0,0.01,0.02,0.03,.....},也就是说目标变量是连续的,如下图的数据曲线拟合就是回归的一个例子。
回归.png
无监督学习
与监督学习相对应的是无监督学习,此时不会给出目标值,根据应用程度不同,无监督学习可以分为聚类和密度估计。
-聚类
将数据集合分成类似的对象组成的多个类的过程称为聚类。
-密度估计
密度估计除了完成聚类所要完成的目标之外,还要估计测试数据与每个分组的相似程度。
例如,给定10000个人的样本数据,利用无监督学习算法将这10000个人进行分类,这个就是聚类,而如果要计算你是属于哪个group,并计算相似程度这就是密度估计。
如何选择合适的算法?
根据前面的描述,那么问题来了,如果给你一个问题,你改如何选择算法呢?是使用监督学习算法还是无监督学习算法?是使用分类问题?回归问题?聚类问题?还是密度估计问题?具体选择依据如下图所示,但是我们只能在一定程度上缩小算法的选择范围,哪种算法最优还需要不断尝试。
如何选择合适的算法.png
机器学习开发流程?
如下图所示。
开发机器学习应用程序步骤.png
机器学习入门阶段自学路线
《机器学习实战》
书中主要讲了数据挖掘的十大算法,如C4.5决策树、K-means聚类算法、支持向量机(SVM)、Apriori、最大期望算法(EM)、AdaBoost算法,kNN算法 、朴素贝叶斯算法等等。个人认为这本书非常适合入门,没有很多的数学知识,但是比较实用。看完这本书,至少能吹吹水了,而不用每次同学谈论SVM等都一脸懵逼。
Coursera上的吴恩达的机器学习公开课
本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标人工智能机器学习频道!
您输入的评论内容中包含违禁敏感词
我知道了
请输入正确的手机号码
请输入正确的验证码
您今天的短信下发次数太多了,明天再试试吧!
我们会在第一时间安排职业规划师联系您!
您也可以联系我们的职业规划师咨询:
版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
沪公网安备 31011502005948号