机器学习入门之强化学习是什么-职坐标

海同科技，欢迎您！

就业

培训

资料

IT知识库

人工智能

站

热门城市全国站>

其他省市

快速购买

400-636-0069

热门课程

IT学院

职坐标首页 IT知识库人工智能机器学习

选择在海同培训： 30 天 1746 名，今日申请 97 人 IT培训咨询 >>

机器学习入门之强化学习是什么

小标 2018-12-12 来源：阅读 795 评论 0

摘要：本文主要向大家介绍了机器学习入门之强化学习是什么，通过具体的内容向大家展现，希望对大家学习机器学习入门有所帮助。

本文主要向大家介绍了机器学习入门之强化学习是什么，通过具体的内容向大家展现，希望对大家学习机器学习入门有所帮助。

2013年伦敦的一家人工智能公司 Deep Mind 发表了一篇论文 “Playing Atari with Deep Reinforcement Learning”，一个月后 Google 就收购了这家公司。从那之后，Reinforcement Learning 在人工智能领域就火了起来。2016年AlphaGo赢了与人类的围棋比赛，它也是用的强化学习。

它是指 autonomous agent，例如，人，动物，机器人或者是深度网络，通过使奖励达到最大化，来学会在不确定环境中进行定位。

例如，运动。

一个 autonomous agent 要学习如何打 tennis 比赛，它需要考虑这些动作：serves, returns, and volleys，这些行为会影响谁赢谁输。
执行每一个动作都是在一个激励下进行的，就是要赢得比赛。
为了实现比分最大化，它需要遵循一个策略。

那么上面这个过程，怎样模型化呢？

agent 的行为会改变外界环境或者状态，所以需要将 state 和 action 作为输入，最高预期回报作为输出。需要在每个动作时都考虑整体的期望回报值。

DeepMind 建立了一个 CNN，不过输出不是分类，而是 maximum reward 的目标值，所以其实是在做回归，而不是分类。
而且没有用 pooling 层，因为图中的物体，人的位置，都很重要，不能被剪掉。

一个 recurrent network 也可以做到，只要问题变为回归，并且每个时间点都包括 action 和 environment state。

还有 Deep Q-Network，它也是在每个 action 和 environment state 下达到最大回报。此外还做了一些改进，加入了经验回放和决斗网络架构。

强化学习和监督式学习区别

监督式学习是根据历史的经验来感知周围的环境，但这个不太靠谱，例如，你车，一周前这条路很 clear，现在这条路很挤，那要怎么学习呢。

而强化学习却是根据 reward 来学习的，agent 的每个动作都会有一个得分。如果遵守了交通规则，限速行驶等，就会给加分，但是如果做了危险的操作，例如加速，就会减分。所以要学会，在当前环境中如何获得最高分，它的每个动作都会改变最终的结果。

通过强化学习，一个 agent 可以在探索和开发之间权衡，并且选择一个最大的回报。

强化学习还包括 goal setting, planning, perception 等课题，可以看文末链接学习更多。

本文由职坐标整理并发布，希望对同学们有所帮助。了解更多详情请关注职坐标人工智能机器学习频道！

机器学习实战 python 机器学习实战视频机器学习入门书

本文由 @小标发布于职坐标。未经许可，禁止转载。

喜欢 | 0

不喜欢 | 0

看完这篇文章有何感觉？已经有0人表态，0%的人喜欢快给朋友分享吧~

评论（0）

后参与评论

加入IT交流圈

JAVA工程师交流群 +加入

大数据架构师交流群 +加入

人工智能Python交流群 +加入

WEB/H5前端交流群 +加入

职坐标公众号

人工智能 直通车

索取资料
答疑解惑
技术交流
职业测评
面试技巧
高薪秘笈

海同师资推荐更多>>

认证System Analyst，System Architect

程光淼

程光淼联系TA

精通C、C++等语言、智能芯片开发

热门就业培训班更多>>

【零基础】人工智能+Python全栈开发课程

【零基础】人工智能+Python全栈开发课程

人工智能+Python技术风口浪潮

【零基础】JavaEE高级开发工程师课程

【零基础】JavaEE高级开发工程师课程

0基础入学Java课程

【零基础】大数据与分布式架构师课程

【零基础】大数据与分布式架构师课程

培训大数据分布式架构

机器学习30天热搜词更多>>

机器学习发展机器学习 python 机器学习入门书籍机器学习人工智能机器学习实战源代码机器学习实战下载机器学习算法python 谷歌机器学习算法机器学习吴恩达机器学习算法代码机器学习常用算法机器学习入门视频教程机器学习入门视频 python机器学习实战机器学习经典算法机器学习实战项目机器学习实战目录机器学习基础教程机器学习实战关于什么 coursera

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场匹配合适岗位

验证码手机号，获得海同独家IT培训资料

选择就业方向：: 人工智能物联网; 大数据开发/分析; 人工智能Python; Java全栈开发; WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了，明天再试试吧！

提交

我们会在第一时间安排职业规划师联系您！

您也可以联系我们的职业规划师咨询：

小职老师的微信号：z_zhizuobiao

小职老师的微信号：z_zhizuobiao

友情链接

职业技能培训职业教育培训 IT教育培训机构 IT教育北京IT培训广州IT培训深圳IT培训杭州IT培训南京IT培训 IT培训公开课 IT视频教程 IT就业培训班软件工程师培训 IT课程视频职坐标商城 IT培训课程软件开发书籍 IT技术资料 IT教育新闻海同名师海同学员软件开发项目 IT热门话题职坐标介绍 IT知识大数据编程语言 WEB前端移动端开发品牌设计数据库软件测试系统运维常用软件人工智能 AI智能技术物联网智能家居机器人大数据技术大数据应用大数据采集大数据分析云计算 C语言 VC编程 JAVA语言 PHP编程 Python编程

版权所有职坐标-一站式IT培训就业服务领导者沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com，All Rights Reserved.
沪公网安备 31011502005948号

关于我们 │ 法律声明 │ 联系我们

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程