翻译:张岭 校对:吴金迪
本文约3000字,建议阅读5分钟。
针对Python、R、SAS这三种数据科学工具,本文从8个角度进行对比分析,并在文末提供记分卡,方便大家随时调整权重r 数据软件,快速做出选择。
介绍
我们喜欢比较!
从比较三星、苹果、HTC的智能手机,到iOS、Android、Windows的移动操作系统,再到比较即将到来的选举候选人,或者选择世界杯队长,比较和讨论丰富了我们的生活。 如果你喜欢讨论,你只想在一个充满激情的群体中提出一个相关的问题,然后看着它爆炸! 这个过程的美妙之处在于社区中的每个人都是知识渊博的人。
我在这里引发了类似的讨论,比较了 SAS、R 和 Python。 SAS 或 R 哪个更好或更差可能是数据科学中最大的争论,而 Python 是发展最快的语言之一,自诞生以来已经取得了长足的进步。 我开始这次讨论的原因不是为了看到它爆炸(尽管这也很有趣),而是为了知道我们都会从讨论中受益。
这也是我在这个博客上最常被问到的问题之一,所以我将与所有读者和访问者讨论它。
SAS
数据科学领域
Python
关于这个话题不是已经说了很多了吗?
可能是的,但我仍然觉得有必要谈论一下,原因如下:
那么,事不宜迟,让讨论开始吧!
背景
以下是 3 个数据科学工具的简要说明:
比较属性(比较角度)
我将在以下 8 个属性上比较这些语言:
1.可用性/成本
2. 易学性
3.数据处理能力
4. 图形功能
5.工具进度
六、工作情况
7.深度学习支持
8. 客户服务支持和社区
我从分析师的角度对这些进行比较,因此,如果您想为您的公司购买工具,您可能无法在这里获得完整的答案,但以下信息仍然有用。 对于这三个工具,我对每个比较属性进行了评级(1 - 低;5 - 高)。
这些比较属性的权重取决于您的职业和抱负。
1.可用性/成本
SAS 是一种商业软件,价格昂贵,并且对于大多数专业人士(以个人身份)来说仍然遥不可及。 然而,它在私营企业中拥有最高的市场份额。 因此,除非您的组织购买了 SAS,否则可能很难获得它。 尽管 SAS 提供了可与 Jupyter 笔记本配合使用的免费大学版本,但它仍然有一些限制!
另一方面,R&Python 是完全免费的。 以下是我对此参数的评分:
SAS-3
R-5
Python-5
2. 易学性
SAS 易于学习,并为已经了解 SQL(PROC
-SQL)。 即使没有,它的知识库中也有一个漂亮、稳定的 GUI。 资源方面,各个大学的网站上都有教程,SAS也有很全面的文档。 有 SAS 培训机构提供的认证,但获得这些认证需要花钱。
此处列出的 3 个工具中,R 的学习曲线最陡,因为它要求您学习和理解编码。 R 是一种低级编程语言,因此简单的程序可能需要更长的代码。
SQL
proc-sql
Python 在编程领域以其简单性而闻名,对于数据分析也是如此。 尽管目前还没有广泛使用的图形界面,但我预计 Python 笔记本将变得越来越主流,为文档和共享提供强大的功能。
SAS – 4.5
R – 2.5
Python – 3.5
3.数据处理能力
过去,这一直是 SAS 的强项。 R 在内存 (RAM) 中进行所有计算,因此计算受到 32 位计算机上 RAM 量的限制,但现在情况已不再如此。 这三个工具都具有良好的数据处理能力和并行计算选项,我觉得这不再是一个很大的区别。 两者都可以集成Hadoop和Spark集成,同时还支持Cloudera和ApachePig。
SAS-4
R – 4
Python – 4
4. 图形功能
SAS 具有良好的功能性图形功能,但它们只是功能性的。 任何绘图的自定义都很困难,并且需要您了解复杂的 SAS 图形(程序扩展)包。
R和Python都具有非常先进的图形功能,并且有许多软件(程序扩展)包将为您提供高级图形功能。
现在,随着这两个工具中引入了plotly,以及Python中引入了Seaborn,自定义绘图变得前所未有的简单。
SAS-3
R – 4.5
Python – 4.5
5.工具进度
这三个工具都具备了最基本、最需要的功能。 该功能仅在研究最新技术和算法时才重要。
由于其开放性,R&Python可以快速获取最新功能,而SAS则随着新版本的发布而更新其功能。 由于 R 在学术界广泛使用r 数据软件,因此新功能开发得很快。
尽管如此,SAS 在受控环境中发布更新,因此它们经过了良好的测试。 另一方面,R&Python是开放的,最新功能的开发可能存在错误。
SAS-4
R – 4.5
Python – 4.5
六、工作情况
在全球范围内,SAS 仍然是市场领导者,大多数大型组织仍然使用 SAS。 另一方面,对于寻求成本效益的初创公司和公司来说,R/Python 是更好的选择。 此外,据报道,过去几年与 R/Python 相关的工作数量有所增加。 这是互联网上广泛发布的趋势,显示了 R 和 SAS 职位数量的趋势。 用于数据分析的 Python 职位与 R 职位具有相似或更高的趋势:
在下图中,蓝色代表 R,橙色代表 SAS。
在下图中,蓝色代表 R,橙色代表 Python。
数据科学工作中使用的工具分布如下:
SAS-4
R – 4.5
Python – 4.5
7. 客户服务支持和社区
R 和 Python 拥有最大的在线社区,但没有客户服务支持。 所以,如果你遇到麻烦,你只能靠自己了。 然而,你会得到很多帮助。
SAS 提供专门的客户服务社区。 因此,如果您遇到安装问题或任何其他技术挑战,可以联系他们。
SAS-4
R – 3.5
Python – 3.5
8.深度学习支持
SAS 深度学习仍处于起步阶段,还有很多工作要做。
Python 在这一领域取得了巨大进步,拥有许多(程序扩展)包,例如 TensorFlow 和 keras。
R 最近添加了对这些包以及一些基本包的支持。 R 中的 kerasR 和 keras 包充当 Python 包 keras 的接口。
SAS-2
Python – 4.5
R – 3
其他因素:
以下是一些值得注意的点:
综上所述
在今天的例子中,我们看到市场稍微向 Python 倾斜。 鉴于该行业的动态性质,押注即将接管的时机尚未成熟。 根据您的情况(职业阶段、财务状况等),您可以添加自己的权重并提出可能适合您的选项。 以下是一些具体场景:
从战略上讲,拥有更多实践帮助和培训的组织可以选择 SAS 作为选项。
研究人员和统计学家选择 R 作为替代方案,因为它有利于大规模计算。 正如他们所说,R 是为了完成工作,而不是为了让你的计算机更容易。
由于其轻量级特性和不断增长的社区,Python 显然已成为当今初创公司的选择,使其成为深度学习的最佳选择。
这是最终的记分卡:
这些是我对这次比较的想法。 现在轮到你通过下面的评论来分享你的观点了。
原标题:
Python 与 R(与 SAS)——我应该学习哪个工具?
原文链接:
译者介绍:张凌,在职数据分析师,计算机硕士毕业。 从事数据工作需要重塑自我的勇气和终身学习的毅力。 但我仍然喜欢它的严谨并痴迷于它的艺术。 数据的海洋一望无际,数据工作充满挑战。