机器学习入门之5分钟搭建大数据学习环境
小标 2018-12-18 来源 : 阅读 1159 评论 0

摘要:本文主要向大家介绍了机器学习入门之5分钟搭建大数据学习环境,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。

本文主要向大家介绍了机器学习入门之5分钟搭建大数据学习环境,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。

    想学大数据,先搭个环境再说,要准备多少台服务器,每台服务器的基础环境设置,各个服务器的网络互联,真是很麻烦的一件事

    第一座山先把想入门的学习者挡在门外,别放弃,这里又一个即全面又快捷的搭建大数据环境的方法,排除下载软件的时间,只需要5分钟,就可以拥有一个自己的大数据环境,包括绝大部分大数据生态环境的各个组建,完美得不能再完美。

    只需按照以下步骤进行:

    一、下载并安装oracle的虚拟机软件VirtualBox

        下载地址为 https://www.virtualbox.org/,有windows版和mac版

        下载后直接安装软件即可

    二、下载CDH的quick starts的VirtualBox虚拟机文件

        CDH是Cloudera的软件发行版,包含Apache Hadoop及相关项目。所有组件都是100%开源。

        我们要下载的虚拟机文件,是运行在VirtualBox里的linux虚拟机,这个linux虚拟机里,已经完整安装了大数据绝大部分必须的组建,包括Hadoop、Hive、Hbase、Spark、Hue以及Mysql等等,这些组件之间的关系,大家在学习大数据的过程中,会一步步的理解。

        下载地址是:https://www.cloudera.com/downloads/quickstart_vms/5-13.html


1-1

        页面上的下拉框请选择Virtual Box,当然也可选择其他的方案,比如Docker iamge或者VMWare,本人在安装过程中,用Docker启动一些组件报错,而Virtual Box的虚拟机环境则很健壮,没有任何问题,因此,推荐使用Virtual Box。

        下载的文件大小为5.8G左右的zip文件,下载成功后,还需要解压这个文件,这是一个比较漫长的过程,当然不能算进5分钟之内了。

    三、 解压后的文件如图1-2,在已经安装好Virtual Box的前提下,直接双击.ovf文件,即可打开Virtual Box的导入虚拟机对话框如图1-3。

            在导入虚拟机对话框上,可以双击各个项目进行调整,如果你的机器是酷睿i9,18个物理内核,36个超线程,那么处理器那一项设置成24或者32都没问题,内存也是一样,根据自己电脑的实际内存大小进行设置,如果此电脑除了运行这个虚拟机意外,不作他用,那么设置称电脑实际内存的三分之二是没有问题的。

            网络控制器和硬盘控制器使用给定的设置即可,导入虚拟机成功后,还可以修改。

            点击“导入”按钮,则显示图1-4,进行虚拟机的导入。

            导入虚拟机成功后,选择导入的虚拟机,点击上面工具栏的设置按钮,可以继续设置虚拟机环境,如图1-5所示

            在点击设置按钮后,会弹出设置的对话框,我们主要对网络进行一下设置,因为这涉及到我们能不能连接到虚拟机的问题。如题1-6,选择桥接网卡,下面“界面名称”那一项,如果是wifi上网的话,选择本机使用的无线网卡,如果使用的是网线,则选择在用的物理网卡。

            虚拟机基本设置完毕,点击Virtual Box的启动按钮(绿色大箭头),则开始启动虚拟机。


1-2


1-3


1-4


1-5


1-6

            启动后的虚拟机如图1-7,记住桌面背景的 cloudera ,虚拟机中各个大数据组件的用户名和密码都是cloudera,包括虚拟机linux系统的用户名和密码


1-7

        在桌面左上角选择“Applications” -> “System Tools” -> “Terminal”,进入控制台,输入ifconfig命令,显示虚拟机的IP地址,如图1-8,我们之前已经设置好了虚拟机使用桥接网络,所以在宿主机,或者与宿主机在同一网络的其他电脑,都可以连接到虚拟机


1-8

        如图1-9至1-11,可以直接访问虚拟机内各个组件的web控制台:

80 cloudera端口:


1-9

8088 hadoop端口:


1-10

8888 hue端口:


1-11

    现在,我们就可以根据官方教程,一步一步学习大数据了,官方教程如下:

    https://www.cloudera.com/developers/get-started-with-hadoop-tutorial.html

    官方教程的“Exercise 1: Ingest and query relational data”这部分内容,是让我们把mysql中的关系型数据导入到hive仓库中,使用的命令是:

sqoop import-all-tables 

    -m {{cluster_data.worker_node_hostname.length}} 

    --connect jdbc:mysql://{{cluster_data.manager_node_hostname}}:3306/retail_db 

    --username=retail_dba 

    --password=cloudera 

    --compression-codec=snappy 

    --as-parquetfile 

    --warehouse-dir=/user/hive/warehouse 

    --hive-import

    执行这行命令会报错:Error: expected numeric argument.

    我们只需将这行命令的 -m {{cluster_data.worker_node_hostname.length}} 删除,并且把命令行中的 

--connect jdbc:mysql://{{cluster_data.manager_node_hostname}}:3306/retail_db 

改成

--connect jdbc:mysql://127.0.0.1:3306/retail_db  

使其连接到虚拟机本机的mysql数据库,就可以成功运行了

最终的命令行如下:

sqoop import-all-tables 

    --connect jdbc:mysql://127.0.0.1:3306/retail_db 

    --username=retail_dba 

    --password=cloudera 

    --compression-codec=snappy 

    --as-parquetfile 

    --warehouse-dir=/user/hive/warehouse 

    --hive-import

        命令运行成功,这样我们的大数据环境中,就有原始数据了,接下来,无论你学习使用hive、pig、spark......,在这个大数据环境中都可以顺利进行。

        虚拟机环境确认正常后,Virtual Box提供快照功能,给虚拟机拍个快照,这样以后在学习过程中,发生环境崩溃时,直接使用快照恢复,一切OK!

本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标人工智能机器学习频道!

本文由 @小标 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式AI+学习就业服务平台 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved