机器学习入门之《机器学习实战》中的splitDataSet函数
小标 2018-10-18 来源 : 阅读 3089 评论 0

摘要:本文主要向大家介绍了机器学习入门之《机器学习实战》中的splitDataSet函数,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。

本文主要向大家介绍了机器学习入门之《机器学习实战》中的splitDataSet函数,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。


splitDataSet这个函数困扰了我好一阵子,为什么以某一特征值为标准进行划分数据集以后,变成了局部?例如,如果以第1个特征为0为标准进行划分,那么返回的结果集就是不含有此特征的结果集,如下图红框部分所示:

代码表示为:[[1, ‘no‘], [1, ‘no‘]]
 
同理,如果以第1个特征为1作为标准,那么返回的结果集如下图所示:

代码表示为:[[1, ‘yes‘], [1, ‘yes‘], [0, ‘no‘]]
后经此文提示://blog.csdn.net/guo1988kui/article/details/75110361
了解到这是因为把那个特征值作为分界线以后,它自身不再作为特征出现在数据集中。
但是我没想明白为什么要这样做,是什么道理?为什么分界线就不再进入数据集了?穿红衣服的同学一组,蓝衣服的同学一组,那么这个分界线就是“衣服”,为什么要把“衣服”排除在外?
同时,实际上,它是否进入数据集,对熵并没有影响。
它统计的是符合特征的样本数量占样本总体的比例,得到概率,与特征数量本身没有关系。
存疑。随着学习的深入,希望有一天能够解开。
继续往下看就知道了,因为要构建决策树,数据集中的特征应当逐步减少。

本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标人工智能机器学习频道!

本文由 @小标 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 2
看完这篇文章有何感觉?已经有2人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式AI+学习就业服务平台 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved