机器学习入门之强化学习是什么
小标 2018-12-12 来源 : 阅读 795 评论 0

摘要:本文主要向大家介绍了机器学习入门之强化学习是什么,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。

本文主要向大家介绍了机器学习入门之强化学习是什么,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。

2013年伦敦的一家人工智能公司 Deep Mind 发表了一篇论文 “Playing Atari with Deep Reinforcement Learning”,一个月后 Google 就收购了这家公司。从那之后,Reinforcement Learning 在人工智能领域就火了起来。2016年AlphaGo赢了与人类的围棋比赛,它也是用的强化学习。

它是指 autonomous agent,例如,人,动物,机器人 或者是 深度网络,通过使奖励达到最大化,来学会在不确定环境中进行定位。


例如,运动。

一个 autonomous agent 要学习如何打 tennis 比赛,它需要考虑这些动作:serves, returns, and volleys,这些行为会影响谁赢谁输。
执行每一个动作都是在一个激励下进行的,就是要赢得比赛。
为了实现比分最大化,它需要遵循一个策略。


那么上面这个过程,怎样模型化呢?

agent 的行为会改变外界环境或者状态,所以 需要将 state 和 action 作为输入, 最高预期回报作为输出。需要在每个动作时都考虑整体的期望回报值。


DeepMind 建立了一个 CNN,不过输出不是分类,而是 maximum reward 的目标值,所以其实是在做回归,而不是分类。
而且没有用 pooling 层,因为图中的物体,人的位置,都很重要,不能被剪掉。


一个 recurrent network 也可以做到,只要问题变为回归,并且每个时间点都包括 action 和 environment state。

还有 Deep Q-Network,它也是在每个 action 和 environment state 下达到最大回报。此外还做了一些改进,加入了经验回放和决斗网络架构。


强化学习和监督式学习区别

监督式学习是根据历史的经验来感知周围的环境,但这个不太靠谱,例如,你车,一周前这条路很 clear,现在这条路很挤,那要怎么学习呢。

而强化学习却是根据 reward 来学习的,agent 的每个动作都会有一个得分。如果遵守了交通规则,限速行驶等,就会给加分,但是如果做了危险的操作,例如加速,就会减分。所以要学会,在当前环境中如何获得最高分,它的每个动作都会改变最终的结果。

通过强化学习,一个 agent 可以在探索和开发之间权衡,并且选择一个最大的回报。

强化学习还包括 goal setting, planning, perception 等课题,可以看文末链接学习更多。

本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标人工智能机器学习频道!

本文由 @小标 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程