小标
2018-10-18
来源 :
阅读 1274
评论 0
摘要:本文主要向大家介绍了机器学习入门之机器学习技法(10)--Random Forest,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。
本文主要向大家介绍了机器学习入门之机器学习技法(10)--Random Forest,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。
随机森林是将bagging和decision tree结合在一起的算法。
random forest同样也继承了两个算法的优点,但是同时也解决了过拟合的缺点。
通过降维的方式来提高运算的速度。
每一个低维度的空间都可以看成是原feature的一个线性组合,由高维度向低维度的转换的过程是随机的,这样又增加了一层随机性。
但是在bagging产生g的时候,总有一些feature的组合没有被选过(out-of-bag),而另一些组合被选择了多次。
假设N‘轮之后还有一些数据没有被选到过,这些数据的概率是1/3:
蓝色的数据已经用来产生g,而红色的OOB的特征很像用来做validation的数据。但是并不常用。因为g的验证并没有什么意义,我们要的的ensemble的hypothesis。
某一个红色的OOB可以被当做某个G‘的validation的数据,G‘由所有的没有用到该红色OOB的g ensemble而成。进而,把所有的G‘平均起来。
下面介绍Random Forest的feature selection:
我们需要把重复和无关的feature移除掉。
虽然特征选择很好,但是如何进行特征选择很麻烦。在随机森林中,通过验证重要的数据和不重要的数据的表现来确定哪些是重要的数据。
permutation test:假设有N个样本,d个维度的数据,我们想要看一下第i个维度的feature的重要性,可以把这些所有的样本的第i个维度的feature都打乱,再看一下打乱前后performance的差异。
为了避免多次的重新训练和validation的过程,在validation的时候进行打乱的动作。
本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标人工智能机器学习频道!
喜欢 | 0
不喜欢 | 0
您输入的评论内容中包含违禁敏感词
我知道了

请输入正确的手机号码
请输入正确的验证码
您今天的短信下发次数太多了,明天再试试吧!
我们会在第一时间安排职业规划师联系您!
您也可以联系我们的职业规划师咨询:
版权所有 职坐标-一站式AI+学习就业服务平台 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
沪公网安备 31011502005948号