机器学习入门之学习Python for Data Science：在数据科学中使用Python库-职坐标

机器学习入门之学习Python for Data Science：在数据科学中使用Python库

小标 2018-12-12 来源：阅读 1464 评论 0

摘要：本文主要向大家介绍了机器学习入门之学习Python for Data Science：在数据科学中使用Python库，通过具体的内容向大家展现，希望对大家学习机器学习入门有所帮助。

本文主要向大家介绍了机器学习入门之学习Python for Data Science：在数据科学中使用Python库，通过具体的内容向大家展现，希望对大家学习机器学习入门有所帮助。

让我们开始吧！

为什么学习Python用于数据科学？

毫无疑问，Python是数据科学家最适合的语言。我列出了几点可以帮助您理解人们使用Python for Data Science的原因：

Python是一种免费，灵活且功能强大的开源语言。

Python以简单易读的语法将开发时间缩短了一半。

使用Python，您可以执行数据操作，分析和可视化。

Python为机器学习应用程序和其他科学计算提供了强大的库。

你知道最好的部分吗？Data Scientist是目前收入最高的工作之一，每个Indeed.com 每年收入约为130,621美元。

Python由Guido Van Rossum于1989年创建。它是一种具有动态语义的解释语言。它可以在所有平台上免费访问和运行。Python是：

面向对象

高级语言

简单易学

面向过程

使用数据科学进行Python的Jupyter安装

让我指导您完成在系统上安装Jupyter的过程。只需按照以下步骤操作：

第1步：转到链接：https：//jupyter.org/

第2步：您可以点击“在浏览器中试试”或“安装笔记本”。

我建议你使用Anaconda发行版安装Python和Jupyter 。安装Jupyter后，可以在命令提示符下键入“Jupyter Notebook”，在默认浏览器中打开它。现在让我们在Jupyter上执行一个基本程序。

name = input（“输入你的姓名：”）

print（“你好”，姓名）

现在，要运行此功能，请按“Shift + Enter”并查看输出。请参阅以下屏幕截图：

Python数据科学基础知识

现在是你在编程中弄脏的时候了。但为此，您应该对以下主题有基本的了解：

变量：术语“变量”是指用于存储值的保留存储器位置。在Python中，您不需要在使用变量之前声明变量，甚至不需要声明它们的类型。

数据类型： Python支持多种数据类型，它们定义了变量和存储方法的可能操作。数据类型列表包括 - 数字，列表，字符串，元组，集和字典。

运算符：运算符有助于操纵操作数的值。Python中的运算符列表包括：算术，比较，赋值，逻辑，按位，成员身份和身份。

条件语句：条件语句有助于根据条件执行一组语句。有即三个条件语句-如果，艾丽芙，和否则。

循环：循环用于迭代小块代码。有三种类型的循环，即 while， for和嵌套循环。

函数：函数用于将代码划分为有用的块，允许您对代码进行排序，使其更具可读性，重用代码并节省一些时间。

有关更多信息和实际实现，请参阅此博客：Python教程。

用于数据科学的Python库

这是Python与数据科学的实际力量进入画面的部分。Python附带了许多用于科学计算，分析，可视化等的库。其中一些列表如下：

NumPy - NumPy是Python for Data Science的核心库，代表'Numerical Python'。它用于科学计算，它包含一个强大的n维数组对象，并提供集成C，C ++等的工具。它还可以用作通用数据的多维容器，您可以在其中执行各种NumPy操作和特殊操作功能。

Matplotlib - Matplotlib是一个功能强大的Python可视化库。它可以在Python脚本，shell，Web应用程序服务器和其他GUI工具包中使用。您可以使用不同类型的图表，并查看使用Matplotlib的多个图表的工作方式。

Scikit-learn - Scikit-learn是主要的吸引力之一，您可以使用Python实现机器学习。它是一个免费的库，包含简单有效的数据分析和挖掘工具。您可以使用scikit-learn实现各种算法，例如逻辑回归。

Seaborn - Seaborn是Python中的统计绘图库。因此，无论何时使用Python进行数据科学，您都将使用matplotlib（用于2D可视化）和Seaborn，它具有漂亮的默认样式和用于绘制统计图形的高级界面。

Pandas - Pandas是Python数据科学的重要库。它用于数据处理和分析。它非常适用于不同的数据，如表格，有序和无序时间序列，矩阵数据等。本教程视频介绍了Pandas和数据分析，然后再继续。

演示：实际实施

问题陈述：您将获得一个数据集，其中包含有关监狱机构的分布和性质，监狱过度拥挤，监狱囚犯类型等各方面的综合统计数据。您必须使用此数据集执行描述性统计并获得有用的数据洞察数据。以下是一些任务：

数据加载：使用Pandas加载数据集“prisoners.csv”，并显示数据集中的第一行和最后五行。然后使用describe Pandas中的方法找出列数。

数据处理：创建一个新列 - “总收益” - 这是所有模式中受益的囚犯的总和。

数据可视化：创建一个条形图，其中x轴上的每个州名称和他们的总受益囚犯作为他们的酒吧高度。

对于数据加载，请编写以下代码：

将pandas 导入为pd

导入matplotlib。作为情节的pyplot

％matplotlib 内联

file_name = “prisoners.csv”

囚犯 = pd。read_csv（file_name）

犯人

现在要describe 在Pandas中使用该方法，只需输入以下语句：

囚犯。describe（）

接下来，让我们执行数据操作。

囚犯 [ “total_benefited” ] = 囚犯。总和（轴 = 1）

囚犯。头（）

最后，让我们在Python中执行一些可视化。请参考以下代码：

导入numpy 为np

xlabels = 囚犯 [ 'STATE / UT' ]。值

情节。图（figsize =（20，3））

情节。xticks（NP。人气指数（xlabels。塑造 [ 0 ]），xlabels，旋转 = '垂直'，字体大小 = 18）

情节。xticks

情节。杆（NP。人气指数（犯人。值。塑造 [ 0 ]），囚犯 [ 'total_benefited' ]，对准 = '边缘'）

本文由职坐标整理并发布，希望对同学们有所帮助。了解更多详情请关注职坐标人工智能机器学习频道！

机器学习实战 python 机器学习实战视频机器学习入门书

本文由 @小标发布于职坐标。未经许可，禁止转载。

喜欢 | 0

不喜欢 | 0

看完这篇文章有何感觉？已经有0人表态，0%的人喜欢快给朋友分享吧~

后参与评论

加入IT交流圈

JAVA工程师交流群 +加入

大数据架构师交流群 +加入

人工智能Python交流群 +加入

WEB/H5前端交流群 +加入

人工智能 直通车

资料领取
答疑解惑
技术交流
职业测评
面试技巧
高薪秘笈

海同专业团队更多>>

黄骈联系TA

认证System Analyst，System Architect

张浩联系TA

15年全栈技术研发经验，中南大学、湖南师大等10+所高校特聘讲师

热门就业技能更多>>

【零基础】人工智能+Python全栈开发技术

机器学习30天热搜词更多>>

机器学习发展机器学习 python 机器学习实战源代码机器学习入门书籍机器学习人工智能机器学习实战下载机器学习算法python 谷歌机器学习算法机器学习吴恩达机器学习算法代码机器学习常用算法机器学习入门视频机器学习入门视频教程 python机器学习实战机器学习经典算法机器学习实战项目机器学习实战目录机器学习基础教程机器学习实战关于什么 coursera