所有分类
  • 所有分类
  • 其它

为什么说Python是数据科学领域的最佳语言? 译文

近日,TIOBE 最新一期编程语言排行榜新鲜出炉,Python再次位居榜首。作为时下最火的编程语言,Python可以说是应用极其广泛,大到数据科学,小到运维、爬虫等等,各大领域随处可见Python的痕迹。

人人都说Python好,但Python究竟有多大的魔力能够如此备受欢迎。

以数据科学领域为例,Python有很多完善的工具包可以协助你完成重要的数据科学任务。本文将具体分析Python深受广大科学家喜欢的原因。

数据科学对 Python 的需求:

数据科学是帮助我们从一系列结构化和非结构化的数据中提取信息的研究,它利用统计学、数学、科学计算来分析数据。

由于Python语法简单,即便没有工程背景的人,也能轻松掌握,所以Python成为在数据科学领域想要出类拔萃所需的重要技能之一,而且它被认为是数据科学的最佳选择。

Python在数据科学领域有着悠久的历史:

  • 2016年 Python 在 Kaggle 平台超越了R,Kaggle 是一个著名的数据科学竞赛平台,来源:Finextra
  • 2017年,Python 在 KDNuggets 的年度数据科学家调查中超过了R,来源:KDnuggets
  • 在2018年,大约66% 的数据科学家称他们每天都使用 Python,这是一个巨大的数字,并使其成为专业分析人员的首选语言,来源:KDnuggets

据专家介绍,随着 Python 语言的发展,这种趋势将继续下去。另外,根据 Indeed 的报告,数据科学家的平均底薪约为109,596美元/年。而且近年来,市场上数据科学家的工作机会急剧增加。

为什么 Python 被用于数据科学:

Python是一种通用的、易用的语言,并且在数据科学中被认为是最佳语言。在可扩展性方面,Python比像R一样的其他编程语言更有优势。它为数据科学家提供了灵活性,而且提供了解决问题的不同方法。在速度方面,Python再次在其同行语言(如Matlab和Stata)中脱颖而出。

下面将讨论 Python 语言的一些重要特性:

  • Python语法使用起来相当简单,任何人都可以在较短的时间内学会 Python;
  • 许多健壮的第三方库被用于数据科学应用。库是模块的集合,可以反复应用于不同程序;
  • 强大的社区支持,有助于使库和框架保持最新,社区人数超过1千万人。来源:developer-tech
  • 库和框架可以免费下载和使用,Python 库和框架总数估计在 137000左右;
  • Python 是一种解释型编程语言,与 C 或 C + + 不同,Python代码首先被转换成低级指令的字节码,然后由 Python 解释器执行;
  • Python 是跨平台的,这意味着一旦代码是用 Python 编写的,它就能够在任何操作系统中运行:例如 Windows、 Mac、 Linux 等等。注意,Python 解释器是依赖平台的;
  • Python 可以实现自动化,因此,我们可以将日常生活中某些耗时的任务自动化。例如,一位班主任希望根据 excel 表中的分数,制作一份学生电子成绩单。假设一个班有100个学生,一个接一个地做成绩单似乎不是一个好的选择。为了解决这个问题,我们可以创建一个 Python 脚本,该脚本基于 excel 工作表,创建所有学生的电子成绩单。

如何使用 Python 进行数据科学?

Python 提供了 NumPy、 pandas、 SciPy、 matplotlib 等库,让我们可以轻松地完成数据科学的日常任务。下面将讨论其中的一些库:

Numpy:Numpy是Numerical Python的首字母缩写,它是一个Python库,提供数学函数的支持,程序员可以使用这些函数来操作更大维度的数组,它包含一些有用的功能,有助于处理数组和矩阵。

Pandas:Pandas 是 Python 开发者中最受欢迎的库之一,该库的主要目标是通过其内置的函数来分析和操作数据,这个库还可以轻松处理大量的结构化数据。 Pandas 支持两种类型的数据结构:

  • Series:一维数据;
  • DataFrame :二维数据。

SciPy: SciPy 是另一个流行的 Python 库,专门用于执行数据科学任务,它在科学计算领域也很有用。它提供了解决科学计算问题和计算机编程任务的功能,它由下列子模块组成:

  • 信号和图像处理
  • 优化算法
  • 积分
  • 插值

Matplotlib:Matplotlib 是非常特殊的 Python 库,它用于数据可视化。数据的可视化对任何组织都非常重要。它提供了数据可视化的方法,这个库不仅限于绘制饼图、条形图、直方图,而且还能绘制高级图形。这个库的另一个特性是支持自定义,图形中的任何部分都可以有效地定制。

Matplotlib 为我们提供了缩放图表和以图片格式保存图表的功能。

当我们以数据科学相关的角色进入一个组织时,一般来说,该组织遵循以下工作流程。

  • 使用 Python 和 SQL 从公司数据库获取数据;
  • 使用 pandas 库将数据插入到一个数据框架中,以便稍后进行分析;
  • 然后在 Pandas 和 Matplotlib 等库的帮助下开始进行数据的分析和可视化;
  • 深入分析和挖掘组织的数据,并根据给定的数据预测未来的结果,Scikit库负责把预测模型准备好。

Python扮演了什么样的角色?

现在让我们共同回顾一下数据科学处理问题过程中的各个步骤,以此来进一步了解Python在其中所扮演的角色。

1、数据收集和清洗

通过Python,你可以加载各种不同格式的数据,比如CSV(逗号分隔值)、TSV(制表符分隔值)或者源自网络的JSON。

无论是你想直接把SQL表格载入到你的程序中,还是说需要爬取网站信息,Python都可以帮助你轻松完成这些任务:前一个任务可以用PyMySQL包,后一个任务可以用 BeautifulSoup包。PyMySQL可以让你轻松连接MySQL数据库、执行查询、抽取数据等。BeautifulSoup可以帮助你读取XML和HTML类型的数据。在提取和替换数值后,你可能还要在数据清洗阶段处理缺失值和无意义值。

此外,如果你在处理某一特殊的数据集时遇到麻烦,你可以去网上搜索这一数据集名称再加上“Python”,或许就能够找到解决方案。

2、数据探索

现在你已经收集好数据,并对这些数据进行了标准化处理,接下来就要进行数据探索了。在这个过程中,你需要理清业务逻辑中所发现的问题,并将这一问题转换成标准化的数据科学问题。

为了实现这一点,需要对数据的类型进行更深层次的探析,并将它们分离成不同的数据类型,比如说数值(numerical)、序数(ordinal)、标称(nominal)、类别(categorical)等,以便提供它们所需的处理方式。

一旦理清了数据所属的类别,就可以使用Python中用作数据分析的库NumPy和Pandas来对这些数据进行探索。此外,Python在数据探索的过程提供了大量的工具,你可以在搜索引擎中进行检索来获取更多的信息。

当完成了这些步骤后,你就可以开始人工智能和数据建模机器学习步骤。

3、数据建模

这一步对于数据科学流程来说是一个非常关键的阶段,而建模之前的特征选择阶段,你可能需要对现有的数据集进行降维的工作。Python语言能够非常方便地帮助你进行这一项任务,它拥有许多高级的工具库来帮助你解决问题。

如果想针对数据执行一个数值模型分析,你只需要使用Python中的Numpy。利用SciPy可以轻松使用科学计数和计算。而Python上的Scikit-learn代码库给出很多直观的接口,帮助你在数据上应用机器学习算法,整个过程不会察觉到任何困难。

当数据建模完成后,你可能需要进行可视化展示,并对数据中有价值的情报进行解释。

4、数据可视化和解释

Python带有许多数据可视化的包。Matplotlib 是最为常用的库,可以生成基本的图形和图表。如果你需要设计精美的高级图表,你也可以试一下另一个Python包Plotly。

还有一个Python包IPython,可以进行交互式数据可视化,并支持利用GUI工具箱。如果你想把调查结果嵌入到交互式网页中,nbconvert 函数可以帮助你将IPython转化或把Jupyter notebooks放入到HTML代码片段中。

在完成数据可视化之后,如何展示你的数据是极为重要的,并且这必须要以可以回应项目中业务逻辑的问题为目的。

现在你可以用这些有价值的信息为之前业务逻辑中的问题来找寻答案,要谨记你的这些解释对于公司的项目干系人来说是很有帮助的。

准备好用Python来拥抱你的数据科学目标了吗?

为什么在踏上数据科学的旅程时使用Python编程,这篇文章已经给了你非常多的理由。这里还有一个新的理由,那就是顶级的科技巨头同样使用Python。

Google,Youtube,Instagram,NASA,IBM,Netflix,Spotify,Uber,Pinterest,Reddit等都是使用Python进行数据科学研究的顶级公司。

最适合数据分析的Python是处理大量数据的最佳选择。它的灵活性,易学性和库的优势使其成为在大数据,机器学习等领域工作的最佳语言。

数据科学的应用:

1、医疗保健行业:在过去的几年里,由于数据科学领域的发展,医疗部门已经受益。现在,通过MapReduce等库和框架,可以实现动脉狭窄等医学图像分析程序。

2、互联网搜索:大多数搜索引擎,如谷歌、雅虎、必应等,都在内部使用数据科学算法,以便在几秒钟内生成最佳结果。据报道,谷歌每天处理超过20 PB的数据。因此,如果没有数据科学,我们甚至无法想象搜索引擎今天是什么样子。

3、金融领域:无论是数据管理,还是交易策略的制定,数据科学对于增强金融解决方案有着巨大的前景。数据科学在自动化风险管理、管理客户数据、预测分析、实时分析(欺诈识别/消费者分析/算法交易)、深度个性化和定制等方面均发挥着非常大的作用。

4、制造业:在一个制造企业中,往往数字化、应用数据的开始,就是一些可视化的数据探索。通过把一些数据某些维度可视化,挖掘出一些浅层的信息,这些往往会带来很大的价值,尤其是用于领导层的决策,用于更高效的展示结果和问题的交流。

不仅如此,数据科学的应用从医疗保健到商业再到零售,很多大行业都在使用数据科学。

总结

Python 是任何数据科学家的基础,如果你想从事数据科学领域的工作,那么你绝对应该考虑 Python 作为主要语言,因为它语法简单并且有大量的支撑库。

译者介绍

王德朕,51CTO社区编辑,10年互联网产研经验,6年IT教培行业经验。原K12教育上市公司产品经理,技术博客专家,蓝桥签约作者,《滚雪球学Python》专栏作者,《爬虫100例》专栏特约作者,78技术人社区发起者。

原文标题:How Python Became The Language for Data Science,作者:Sonia Mathias

链接:https://www.datasciencecentral.com/how-python-became-the-language-for-data-science/

显示验证码

社交账号快速登录