机器学习入门之谨以此篇献给那些必须前进的程序员们—

机器学习入门之谨以此篇献给那些必须前进的程序员们——AI的学习进阶之路

小标 2018-11-28 来源：阅读 1840 评论 0

摘要：本文主要向大家介绍了机器学习入门之谨以此篇献给那些必须前进的程序员们——AI的学习进阶之路，通过具体的内容向大家展现，希望对大家学习机器学习入门有所帮助。

本文主要向大家介绍了机器学习入门之谨以此篇献给那些必须前进的程序员们——AI的学习进阶之路，通过具体的内容向大家展现，希望对大家学习机器学习入门有所帮助。

随着人工智能的发展，越来越的缺口等待，吸引着我们，诱惑着我们转型到这个领域。相信很多小伙伴都像柳猫一样，不可避免的问过自己“普通程序员，如何转向人工智能方向呢？”，现在，谨以此篇讲述柳猫自己的答案。

一. 小小的引读：

柳猫给出这篇文章的目的告诉大家一个简单的，平滑的，易于实现的学习方法，帮助 “普通” 程序员踏入AI领域这个门。

这里，我对普通程序员的定义是：

拥有大学本科知识；

平时工作较忙；

自己能获取的数据有限。

因此，本文更像是一篇 “from the scratch” 的AI入门教程。

二. AI领域简介：

AI，也就是人工智能，并不仅仅包括机器学习。曾经，符号与逻辑被认为是人工智能实现的关键，而如今则是基于统计的机器学习占据了主导地位。最近火热的深度学习正是机器学习中的一个子项。

目前可以说，学习AI主要的是学习机器学习。但是，人工智能并不等同于机器学习，这点在进入这个领域时一定要认识清楚。关于AI领域的发展历史介绍推荐看周老师写的《机器学习简介》。

下面一个问题是：AI的门好跨么？其实很不好跨。我们以机器学习为例。在学习过程中，你会面对大量复杂的公式，在实际项目中会面对数据的缺乏，以及艰辛的调参等。

如果仅仅是因为觉得这个方向未来会“火”的话，那么这些困难会容易让人放弃。考虑到普通程序员的特点，而要学习如此困难的学科，是否就是没有门路的？答案是否定的。只要制定合适的学习方法即可。

三. 学习方法：

学习方法的设定简单说就是回答以下几个问题：

我要学的是什么？

我怎样学习？

我如何去学习？

这三个问题概括说就是：

学习目标：学习方针与学习计划。学习目标比较清楚，就是踏入AI领域这个门。这个目标不大，因此实现起来也较为容易。“过大的目标时就是为了你日后放弃它时找到了足够的理由”。

学习方针：可以总结为“兴趣为先，践学结合”。简单说就是先培养兴趣，然后学习中把实践穿插进来，螺旋式提高。这种方式学习效果好，而且不容易让人放弃。

有了学习方针以后，就可以制定学习计划，也称为学习路线。下面就是学习路线的介绍。

四. 学习路线

我推荐的学习路线是这样的，如下图：

AI领域常用的学习路线图

我们将所有学习路线总结抽象一下，得到学习路线是这样的：

首先了解这个领域，建立起全面的视野，培养起充足的兴趣，然后开始学习机器学习的基础，这里选择一门由浅入深的课程来学习，课程最好有足够的实验能够进行实战。

基础打下后，对机器学习已经有了充足的了解，可以用机器学习来解决一个实际的问题。这时还是可以把机器学习方法当作一个黑盒子来处理的。

实战经验积累以后，可以考虑继续进行学习。这时候有两个选择，深度学习或者继续机器学习。深度学习是目前最火热的机器学习方向，其中一些方法已经跟传统的机器学习不太一样，因此可以单独学习。除了深度学习以外，机器学习还包括统计学习，集成学习等实用方法。如果条件足够，可以同时学习两者，一些规律对两者是共通的。

学习完后，你已经具备了较强的知识储备，可以进入较难的实战。这时候有两个选择，工业界的可以选择看开源项目，以改代码为目的来读代码；学术界的可以看特定领域的论文，为解决问题而想发论文。无论哪者，都需要知识过硬，以及较强的编码能力，因此很能考察和锻炼水平。

经过这个阶段以后，可以说是踏入AI领域的门了。“师傅领进门，修行在个人”。之后的路就要自己走了。下面是关于每个阶段的具体介绍：

1.领域了解

在学习任何一门知识之前，首先第一步就是回答下面三个问题：

这个知识是什么？

它能做什么事？

它的价值在什么地方？

了解这些问题后，你才能培养出兴趣，兴趣是最好的引路人，学习的动力与持久力才能让你应付接下来的若干个阶段。

2.知识准备

如果你离校过久，或者觉得基础不牢，最好事先做一下准备复习工作。“工欲善其事，必先利其器”。以下的准备工作不多，但足以应付后面阶段的学习。

数学：复习以下基本知识。线性代数：矩阵乘法；高数：求导；概率论：条件与后验概率。其他的一些知识可以在后面的学习的过程中按需再补；

英文：常备一个在线英文词典，例如爱词霸，能够不吃力的看一些英文的资料网页；

FQ：可以随时随地上Google，这是一个很重要的工具。不是说百度查的不能看，而是很多情况下Google搜出来的资料比百度搜的几十页的资料还管用，尤其是在查英文关键字时。节省时间可是很重要的学习效率提升；

3.机器学习

机器学习的第一门课程首推Andrew Ng的机器学习。这门课程有以下特点：难度适中，同时有足够的实战例子，非常适合第一次学习的人。cs229 这门课程我这里不推荐，为什么，原因有以下：

时间：cs229 的时间太早，一些知识已经跟不上当今的发展，目前最为火热的神经网络一笔带过。

教学：Ng在cs229 时候的教学稍显青涩，可能是面对网络教学的原因。有很多问题其实他都没有讲清楚，而且下面的人的提问其实也很烦躁，你往往不关心那些人的问题。

字幕：cs229 的字幕质量谁看谁知道。。。

作业：cs229 没有作业，虽然你可以做一些，但不会有人看。

这里柳猫良心推荐Coursera，上面说的一切在这里都得到了完美的解决，实在是不可多得的优质资源，当然，还有我们的慕课网，也是首屈一指的良心资源。

4.实践做项目

学习完了基础课程，你对机器学习就有了初步了解。

现在使用它们是没有问题的，你可以把机器学习算法当作黑盒子，放进去数据，就会有结果。在实战中你更需要去关心如何获取数据，以及怎么调参等。

如果有时间，自己动手做一个简单的实践项目是最好的。这里需要选择一个应用方向，是图像（计算机视觉），音频（语音识别），还是文本（自然语言处理）。这里推荐选择图像领域，这里面的开源项目较多，入门也较简单，可以使用OpenCV做开发，里面已经实现好了神经网络，SVM等机器学习算法。

项目做好后，可以开源到到 Github 上面，然后不断完善它。实战项目做完后，你可以继续进一步深入学习，这时候有两个选择，深度学习和继续机器学习；

5.深度学习

深度学习：深度学习是目前最火热的研究方向。有以下特点：知识更新快，较为零碎，没有系统讲解的书。因此学习的资源也相对零散，下面是一些资源介绍。其中不推荐的部分并不代表不好，而是在这个初学阶段不合适：

推荐，UFLDL：非常好的DL基础教程，也是Andrew Ng写的。有很详尽的推导，有翻译，且翻译质量很高；

推荐，Deep learning (paper)：2015年Nature上的论文，由三位深度学习界的大牛所写，读完全篇论文，给人高屋建瓴，一览众山小的感觉，强烈推荐。如果只能读一篇论文了解深度学习，我推荐此篇。这篇论文有同名的中文翻译；

推荐，Neural networks and deep learning：这本书的作者非常擅长以浅显的语言表达深刻的道理，虽然没有翻译，但是阅读并不困难；

推荐，Recurrent Neural Networks：结合一个实际案例告诉你RNN是什么，整篇教程学完以后，会让你对RNN如何产生作用的有很清晰的认识，而这个效果，甚至是读几篇相关论文所没有的；

6.继续机器学习

深度学习未必就是未来的一定主流，至少一些大牛是这么认为的。传统的机器学习有如下特点，知识系统化，有相对经典的书。其中统计学习（代表SVM）与集成学习（代表adaboost）是在实践中使用非常多的技术。下面是相关资源：

推荐，机器学习(周志华)：如果是在以前，机器学习方面的经典教材首推PRML，但现在周老师的书出来以后，就不再是这样了。首先推荐读周老师的书。这本书有一个特点，那就是再难的道理也能用浅显精炼的语言表达出来。正如周老师的名言：“体现你水平的地方是把难的东西讲容易了，而不是把容易的东西讲难，想把一个东西讲难实在太简单”；

不推荐，Pattern Recognition And Machine Learning：当前阶段不推荐。PRML是以贝叶斯的观点看待很多机器学习方法，这也是它的一大特色。但对于初学者来说，这种观点其实并无必要。而且此书没有中文翻译，当前阶段硬啃很容易放弃；

7.开源项目

当知识储备较为充足时，学习可以再次转入实践阶段。这时候的实践仍然可以分两步走，学习经典的开源项目或者发表高质量的论文。开源项目的学习应该以尽量以优化为目的，单纯为读代码而学习效果往往不太好。好的开源项目都可以在Github 里搜索。这里以深度学习为例。深度学习的开源优秀库有很多，例如torch，theano等等，这里列举其中的两个：

推荐，DeepLearnToolbox：较早的一个深度学习库，用matlab语言撰写，较为适合从刚学习的课程转入学习。遗憾的是作者不再维护它了；

推荐，tensorflow：Google的开源库，时至今日，已经有40000多个star，非常惊人，支持移动设备；

8.会议论文

较好的课程都会推荐你一些论文。一些著名的技术与方法往往诞生于一些重要的会议。因此，看往年的会议论文是深入学习的方法。

在这时，一些论文中的内容会驱使你学习数学中你不擅长的部分。有时候你会觉得数学知识储备不够，因此往往需要学习一些辅助课程。

当你看完足够的论文以后，在这个阶段，如果是在校学生，可以选择某个课题，以发论文为目的来学习研究。一般来说，论文是工作的产物。有时候一篇基于实验的论文往往需要你写代码或者基于开源项目。

因此开源项目的学习与会议论文的工作两者之间是有相关的。两者可以同时进行学习。关于在哪里看论文，可以看一下CCF推荐排名，了解一下这个领域里有哪些优秀的会议。下面介绍两个图像与机器学习领域的著名顶级会议：

CVPR：与另两个会议ICCV和ECCV合称计算机视觉领域的三大会，注意会议每年的主页是变动的，因此搜索需要加上年份；

Conference on Neural Information Processing Systems：简称NIPS，许多重要的工作发表在这上面，例如关于CNN的一篇重要论文就是发表在上面；

8.自由学习

自由学习：到这里了，可以说是进入这个门了。下面可以依据兴趣来自由学习。前阶段不推荐的学习资源也可随意学习，下面是点评：

cs229 ：Ng写的讲义很不错，其中关于SVM的推导部分很清晰，想学习SVM推荐；