机器学习入门之机器学习基石(6)--Theory of Generalization
小标 2018-11-20 来源 : 阅读 1088 评论 0

摘要:本文主要向大家介绍了机器学习入门之机器学习基石(6)--Theory of Generalization,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。

本文主要向大家介绍了机器学习入门之机器学习基石(6)--Theory of Generalization,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。

本节课主要讲在机器学习中,机器如何做到举一反三。


上图可以得出结论,当N超过k的时候,mH的数量会越来越少。对未来成长函数的样子加了一个限制。

mH的数量其实是有一个上限的,这个上限就是关于N的一个多项式。引出定义bonding function B(N,k)

已知上限函数的break point是在k,求这个函数的上限到底是多少。并且,我们不用去管这个函数是什么样子,只需要关注K和N就好了。
bounding function计算表:

bounding function的几个性质:
1. B(N,1)=1
2. B(N,k)=2N for N>k
3. B(N,k)=2N–1 for N=k
下面要做的就是接触上图中空白的部分,以B(4,3)为例:通过计算得出B(4,3)=11,又可以归纳成(以x4为基准看单双对)2α+β=2N+k

由于任意三个点不能shatter,得出结论α+β≤B(3,3);
在单独的α中,任意两个点不能shatter,得出结论α≤B(3,2);
由此可以得出:

把这个拓展到N和k的情况下:

我们可以得出这个bounding function的上限,也就是这个上限函数的上限是(也就是之前讲过的成长函数的上限也被确定了):

所以可以得出结论:如果k存在的话,B(N,k)的上限确实是一个关于N的多项式。最大值是Nk–1。
有时候我们写不出mH,但是我们可以写出bounding function。
再次返回霍夫丁不等式,我们可以通过一系列数学证明得到如下结果:

证明的过程不重要,但是证明的技巧在后面可能会被用到:

Ein是有限的,但是Eout确实无限的,如果我们假设又从population中取了另一批sample,通过学习这一批sample得出了另一个Ein`,而这个Ein`应该和population中的Eout发生BAD事件的概率是相同的,所以,两批sample发生BAD事件也是相同的,Eout于是从无限就可以替换为有限个了。

把hypothesis set分类:由于上一步从population中取了另一批的sample,所以N应该由2N来替代。

采用无放回抽样(Hoeffding without Replacement),得到的结果也是一样的。
最后得出结果(发生BAD事件的概率):

本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标人工智能机器学习频道!

本文由 @小标 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程