机器学习入门之2018-07-18大数据学习路线(完整细节版)
小标 2018-12-12 来源 : 阅读 676 评论 0

摘要:本文主要向大家介绍了机器学习入门之2018-07-18大数据学习路线(完整细节版),通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。

本文主要向大家介绍了机器学习入门之2018-07-18大数据学习路线(完整细节版),通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。


大数据学习路线(完整细节版)

大数据学习路线

java

(Java se,javaweb)

Linux(shell,高并发架构,lucene,solr)

Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)

机器学习(R,mahout)

Storm(Storm,kafka,redis)

Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)

Python(python,spark python)

云核算渠道(docker,kvm,openstack)

名词解释

一、Linux

lucene: 全文检索引擎的架构

solr: 根据lucene的全文查找服务器,完结了可装备、可扩展并对查询功用进行了优化,而且供给了一个完善的功用办理界面。

二、Hadoop

HDFS

: 分布式存储体系,包含NameNode,DataNode。NameNode:元数据,DataNode。DataNode:存数数据。

yarn: 能够理解为MapReduce的和谐机制,本质就是Hadoop的处理剖析机制,分为ResourceManager NodeManager。

MapReduce: 软件结构,编写程序。

Hive: 数据仓库 能够用SQL查询,能够运行Map/Reduce程序。用来核算趋势或许网站日志,不该用于实时查询,需求很长时刻回来成果。

HBase: 数据库。十分合适用来做大数据的实时查询。Facebook用Hbase存储音讯数据并进行音讯实时的剖析

ZooKeeper: 针对大型分布式的可靠性和谐体系。Hadoop的分布式同步等靠Zookeeper完结,例如多个NameNode,active standby切换。

Sqoop: 数据库彼此搬运,关系型数据库和HDFS彼此搬运

Mahout: 可扩展的机器学习和数据发掘库。用来做引荐发掘,集合,分类,频频项集发掘。

Chukwa: 开源搜集体系,监督大型分布式体系,建立在HDFS和Map/Reduce结构之上。显现、监督、剖析成果。

Ambari: 用于装备、办理和监督Hadoop集群,根据Web,界面友爱。

二、Cloudera

Cloudera Manager: 办理 监控 确诊 集成

Cloudera CDH:(Cloudera's Distribution,including Apache Hadoop) Cloudera对Hadoop做了相应的改动,发行版别称为CDH。

Cloudera Flume: 日志搜集体系,支撑在日志体系中定制各类数据发送方,用来搜集数据。

Cloudera Impala: 对存储在Apache Hadoop的HDFS,HBase的数据供给直接查询互动的SQL。

Cloudera hue: web办理器,包含hue ui,hui server,hui db。hue供给一切CDH组件的shell界面的接口,能够在hue编写mr。

三、机器学习/R

R

: 用于统计剖析、绘图的言语和操作环境,现在有Hadoop-R

mahout: 供给可扩展的机器学习范畴经典算法的完结,包含聚类、分类、引荐过滤、频频子项发掘等,且可经过Hadoop扩展到云中。

四、storm

Storm

: 分布式,容错的实时流式核算体系,能够用作实时剖析,在线机器学习,信息流处理,连续性核算,分布式RPC,实时处理音讯并更新数据库。

Kafka: 高吞吐量的分布式发布订阅音讯体系,能够处理消费者规划的网站中的一切动作流数据(阅读,查找等)。相对Hadoop的日志数据和离线剖析,能够完结实时处理。现在经过Hadoop的并行加载机制来一致线上和离线的音讯处理

Redis: 由c言语编写,支撑网络、可根据内存亦可耐久化的日志型、key-value型数据库。

五、Spark

Scala

: 一种类似java的彻底面向对象的编程言语。

jblas: 一个快速的线性代数库(JAVA)。根据BLAS与LAPACK,矩阵核算实践的行业标准,并运用先进的根底设施等一切的核算程序的ATLAS艺术的完结,使其十分快。

Spark: Spark是在Scala言语中完结的类似于Hadoop MapReduce的通用并行结构,除了Hadoop MapReduce所具有的长处,但不同于MapReduce的是job中心输出成果能够保存在内存中,从而不需求读写HDFS,因而Spark能更好的适用于数据发掘与机器学习等需求迭代的MapReduce算法。能够和Hadoop文件体系并行运作,用过Mesos的第三方集群结构能够支撑此行为。

Spark SQL: 作为Apache Spark大数据结构的一部分,可用于结构化数据处理并能够履行类似SQL的Spark数据查询

Spark Streaming:一种构建在Spark上的实时核算结构,扩展了Spark处理大数据流式数据的才能。

Spark MLlib: MLlib是Spark是常用的机器学习算法的完结库,现在(2014.05)支撑二元分类,回归,聚类以及协同过滤。一起也包含一个底层的梯度下降优化根底算法。MLlib以来jblas线性代数库,jblas自身以来长途的Fortran程序。

Spark GraphX: GraphX是Spark中用于图和图并行核算的API,能够在Spark之上供给一站式数据解决方案,能够便利且高效地完结图核算的一整套流水作业。

Fortran: 最早呈现的核算机高档程序设计言语,广泛应用于科学和工程核算范畴。

BLAS: 根底线性代数子程序库,具有很多现已编写好的关于线性代数运算的程序。

LAPACK: 闻名的揭露软件,包含了求解科学与工程核算中最常见的数值线性代数问题,如求解线性方程组、线性最小二乘问题、特征值问题和奇特值问题等。

ATLAS: BLAS线性算法库的优化版别。

Spark Python: Spark是由scala言语编写的,但是为了推广和兼容,供给了java和python接口。

六、Python

Python

: 一种面向对象的、解释型核算机程序设计言语。

七、云核算渠道

Docker

: 开源的应用容器引擎

kvm: (Keyboard Video Mouse)

openstack:  开源的云核算办理渠道项目

本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标人工智能机器学习频道!

本文由 @小标 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程