机器学习入门之机器学习-决策树最优类别属性选择的三个方法
小标 2018-09-29 来源 : 阅读 1757 评论 0

摘要:本文主要向大家介绍了机器学习入门之机器学习-决策树最优类别属性选择的三个方法,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。

本文主要向大家介绍了机器学习入门之机器学习-决策树最优类别属性选择的三个方法,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。

 

本文所用符号:

\(D\):所有样本,如《西瓜书》中所有的西瓜样本
\(a\):用来划分样本的类别属性,a有V个可取值{\(a^1,a^2 \dots , a^V\)},如若用a表示“色泽”,则a的取值是{\(a^1=青绿,a^2=乌黑,a^3=浅白\)},此时\(V=3\)
\(D^v\):用a对样本D进行划分后属于\(a^v\)的样本子集
\(|y|\):\(y\)属性可取个数,下文中用y表示模型最终划分的结果集,如西瓜书中的{好瓜,坏瓜}

信息增益
使用信息熵\[Ent(D)=-\sum_{k=1}^Vp_klog_2p_k\]度量样本合集纯度,\(Ent(D)\)越大,纯度越低。用a对样本分类后,信息增益
\[Gain(D,a)=Ent(D)-\sum_{v=1}^V \frac{|D^v|}{|D|}Ent(D^v)\]越大说明使用a作为划分类别对样本划分后纯度提高越多,其中\(\sum_{v=1}^V \frac{|D^v|}{|D|}Ent(D^v)\)表示划分后的每个子集的信息熵的加权和。 选择使信息增益最大化的划分类别如a对样本进行第一次划分后,形成v个子样本:{\(D^1,D^2 \cdots,D^v\)},再对每个子样本用相同的方法继续划分即可,如对\(D^1\)划分:选择除a之外的类别属性b和c,分别计算\(Gain(D^1,b)\)和\(Gain(D^1,c)\),最后选择使结果值较大的类别属性进行划分。使用信息增益法划分子集的算法叫做ID3决策树算法。
增益率
信息增益法对可取值较多的类别划分属性有所偏好,可能影响模型的泛化能力,C4.5决策树算法中使用“增益率”选择最优划分属性。增益率定义:\[gain_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}\],其中\[IV(a)=-\sum_{v=1}^V\frac{|D^v|}{|D|}log_2\frac{|D^v|}{|D|}\],为什么分母是这样子?希望有时间能看下《信息论》,但是可以粗浅地看出,a的取值可能性越多,\(IV(a)\)越大(假设a只有一个取值,那么IV(a)为0;取两个值且各占一半,IV(a)为 \(-log_2\frac{1}{2}\);取三个值且各占三分之一,IV(a)为\(-log_2\frac{1}{3}\)),正好起到调停作用。
增益率对可取值数量较小的类别属性有所偏好,实际计算中,先选出信息增益高于平均值的若干个类别属性,然后再从中选择增益率较高的属性作为分类属性
基尼指数
CART决策树算法使用基尼指数,其定义为:\[Gini(D)=\sum_{k=1}^{|y|}\sum_{k' \neq k} p_kp_{k'}=1-\sum_{k=1}^{|y|}p_k^2\],基尼指数表示从D中随机取出两个样本其标记不一致的概率,此概率越低,说明纯度越高。
类别属性a的基尼指数定义为\[Gini_index(D,a)=\sum_{v=1}^V\frac{|D^v|}{|D|}Gini(D^v)\],选择基尼指数最小的属性作为划分属性。

本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标人工智能机器学习频道!

本文由 @小标 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程