机器学习入门之Active learning 主动学习的来世今生
小标 2018-11-28 来源 : 阅读 1471 评论 0

摘要:本文主要向大家介绍了机器学习入门之Active learning 主动学习的来世今生,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。

本文主要向大家介绍了机器学习入门之Active learning 主动学习的来世今生,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。

Active learning Survey
主动学习的来世今生

核心思想:主动学习可以基于较少的已标注的数据量得到同样好的模型准确率。

在几乎所有的机器学习问题中,虽然未标注数据很丰富且易于获得,但是标注数据却很少或者需要大量的人工标注(成本问题)。所以主动学习是解决问题的核心方法之一。

这篇文章提供了一个主动学习详细的介绍和相关文献的总结。主要包括解决方案,查询策略框架,主动学习的分析,设置变量的问题,实际问题考虑,相关研究领域。

reference:
Burr Settles. Active Learning Literature Survey. Computer Sciences Technical
Report 1648, University of Wisconsin–Madison. 2009.


————————————
1.1 主动学习
主动学习,又称查询学习,最优实验设计,是机器学习的一个子领域。关键的假设前提是算法可以选择一部分数据去学习。

流程如下:




active learning vs passive learning:




2 解决方案

在文献中有三种主要的设想:成员查询合成,基于流的选择性抽样,基于池的抽样


具体差别如下:


3 查询策略框架
3.1 不确定性抽样
最简单最常用的框架。主要是计算最小自信度。为了克服最小自信度仅仅考虑正确标注的问题,边际抽样被提出来解决多酚类不确定抽样问题。再后来,一种更广义的抽样策略(最著名)被提出,适用香农熵来抽样。
这三种方法几乎相同当一类的后验概率接近于0.5。





三种方法的区别如上图所示,entropy的最高信息提取区域最大适用性最强,但是在一个特殊分类标注的数据上不如前两者(比如仅有一个标注是高度不可能的)


不确定抽样可以应用于分类问题,也可以应用于连续变量的回归问题。

到这里为止, 我发现我需要解决的问题是,怎么使得中文文本变成可分析可计算的样本呢,怎么分句,怎么选择,怎么计算字的信息熵从而实现不确定性抽样得到我所需要的高信息熵的未标注文本样本呢。

本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标人工智能机器学习频道!

本文由 @小标 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式AI+学习就业服务平台 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved