机器学习入门之机器学习-10:MachineLN之样本不均衡
小标 2019-02-13 来源 : 阅读 14003 评论 0

摘要:本文主要向大家介绍了机器学习入门之机器学习-10:MachineLN之样本不均衡,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。

本文主要向大家介绍了机器学习入门之机器学习-10:MachineLN之样本不均衡,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。

我想说:


其实很多时候,有竞争是好的事情,可以促进你的成长,可以磨练你的耐性,可以提升你的魅力,可以表现你的豁达,可以体验成功的喜悦,可以感受失败其实并不可怕,可怕的是你没有面对失败的勇气;而今天的社会达尔文的进化论其实从来没有变过,唯一不变的事情想必就是变了,做慈善的是慈善机构,做教育的是学校,百依百顺的是父母,只要踏上社会,那么对不起,优胜劣汰,适者生存,你必须面对,并且你面对的都是高手,是多个依依东望的诸葛亮,你要脱颖而出除了变的更优秀没有出路! 那么你打算怎么做呢?


说到样本不均衡,感觉平时大家不太重视,下面来一起讨论一下!


那么我的问题是:


1. 什么是样本不均衡?


2. 为什么要解决样本不均衡?


3. 解决样本不均衡有哪些方法?


看到这里你的答案是什么?下面是我的答案:


1. 什么是样本不均衡?


样本不均衡:在准备训练样本的时候,各类别样本比例不等,有的差距可能比较小,有的差距则会比较大,以CIFAR-10为例:


CIFAR-10是一个简单的图像分类数据集。共有10类(airplane,automobile,bird,cat,deer,dog, frog,horse,ship,truck),每一类含有5000张训练图片,1000张测试图片。如下图:Dist. 1:类别平衡,每一类都占用10%的数据。Dist. 2、Dist. 3:一部分类别的数据比另一部分多。Dist. 4、Dist 5:只有一类数据比较多。Dist. 6、Dist 7:只有一类数据比较少。Dist. 8: 数据个数呈线性分布。Dist. 9:数据个数呈指数级分布。Dist. 10、Dist. 11:交通工具对应的类别中的样本数都比动物的多。


2. 为什么要解决样本不均衡?


训练网络使用的是CIFAR-10的结构,下面是测试结果:可以看出总的准确率表现不错的几组1,2,6,7,10,11都是大部分类别平衡,一两类差别较大;而表现很差的,像5,9可以说是训练失败了,他们的不平衡性也比前面的要强。


那么再看一下,对样本少的数据进行过采样之后,测试结果:可以看到经过过采样将类别数量平衡以后,总的表现基本相当。(过采样虽然是一个很简单的想法,但是很OK,3中还将介绍海康威视ImageNet2016竞赛经验)


想必到这里可以看到样本均衡的重要性了吧。


3. 解决样本不均衡有哪些方法?


解决不均衡问题的方式有很多:


(1)可以将数据进行扩增: (这些方法有时候也可以勉强做为数据不均衡的增强方法,如果训练时候各类样本都已经用了以下的方法进行data augmentation,那么样本不均衡就选其他方法来做吧)



原图:



图像旋转;



图像crop;



图像平移;



图像flip;(左右镜像,有的可以上下)



(5)图像光照;


还有一些像添加噪声; 透视变换等;



(2) 可以借鉴一下海康威视的经验:



以图中的例子来说,步骤如下:首先对原始的图像列表,按照标签顺序进行排序;然后计算每个类别的样本数量,并得到样本最多的那个类别的样本数。根据这个最多的样本数,对每类随机都产生一个随机排列的列表;然后用每个类别的列表中的数对各自类别的样本数求余,得到一个索引值,从该类的图像中提取图像,生成该类的图像随机列表;然后把所有类别的随机列表连在一起,做个Random Shuffling,得到最后的图像列表,用这个列表进行训练。每个列表,到达最后一张图像的时候,然后再重新做一遍这些步骤,得到一个新的列表,接着训练。Label Shuffling方法的优点在于,只需要原始图像列表,所有操作都是在内存中在线完成,非常易于实现。


另外也可以按照同样的方式对多的样本进行欠采样;


(3)还可以用Weighted samples,给每一个样本加权重,样本多的类别每个的权重就小些,样本少的类别每个的权重就大些,这样无论样本是否均衡,在Loss Function中每类的影响力都一样的。


(4)还可以:再过采样之后使用K-fold交叉验证,来弥补一些特殊样本造成的过拟合问题,(K-fold交叉验证就是把原始数据随机分成K个部分,在这K个部分中选择一个作为测试数据,剩余的K-1个作为训练数据。交叉验证的过程实际上是将实验重复做K次,每次实验都从K个部分中选择一个不同的部分作为测试数据,剩余的数据作为训练数据进行实验,最后可以把得到的K个实验结果平均。)


本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标人工智能机器学习频道!

本文由 @小标 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 2
看完这篇文章有何感觉?已经有2人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程