本文共3977字,建议阅读5分钟
本文向大家介绍R语言的学习方法和最新动态。
如果你没有编程经验,或者更熟悉点击式统计软件(而不是真正的编程语言),那么学习 R 可能会有点困难。本文更适合 R 初学者,但有经验的人也可以从中了解 R 的最新进展。
本文的学习方法建立在追求实用性和全面性的基础上。R 语言有很多优秀的免费资源,但不幸的是并不是全部。我们的资源相当丰富,包括相关文档、在线课程、书籍等,让您尽快开始使用 R 语言的最佳学习资料。
R 视频中生成的数据:获取链接并在以下链接观看视频:
以下是本文的概要:
步骤 0:为什么要学习 R?
R 正在迅速成为数据科学的通用语言。它起源于学术界,但如今,您会在越来越多的商业环境中看到 R,它现在已成为 SAS、STATA 和 SPSS 等商业软件公司的贡献者。
R 的受欢迎程度每年都在增加,2015 年它被 IEEE 列为 2015 年度十大语言之一。这表明对 R 知识的需求正在增长,因此学习 R 绝对是一项明智的职业投资(根据这项调查,R 编程甚至是薪酬最高的技能)。
Oracle、Microsoft等行业巨头正在逐步加大对R语言产品的投入,而且未来几年这种投入还将继续增长。
不过,金钱不应该成为学习一门技术或编程语言的唯一动力。幸运的是,R 语言能给你的不仅仅是一份薪水。当我们进入 R 语言时,我们会逐渐熟悉这个多元而有趣的圈子。换句话说,R 语言可以用于各个领域的任务,例如金融、基因序列分析、房地产、付费广告等,这也促进了 R 语言的进一步发展。
在日常生活中你也会遇到R语言的各种案例和应用,这不仅让事情变得有趣,还能帮助你解决各种问题。玩得开心!
步骤 1:软件设置
在实际开始使用 R 之前,您需要下载安装包。R 一直在不断更新,自 1993 年推出以来,已经发布了多个不同版本,并取了一些有趣的名字,如“世界著名宇航员”和“木制圣诞树”。安装 R 非常简单,您可以从综合 R 档案网络 (CRAN, ) 下载适用于 Linux、Mac 和 Windows 的二进制文件。
安装 R 后,您可以安装一个全面的 R 开发环境(尽管基本的 R 控制台也可以正常工作)。两个更完整的 IDE 是 RStudio() 和 Architec()。如果您更喜欢图形用户界面,您还应该查看 R-commander()。
第 2 步:了解 R 语言语法
学习编程语言(例如 R)与学习自然语言(例如法语或西班牙语)类似,都是通过实践和边做边学。学习 R 的最佳方法之一是通过以下在线教程:
除了这些在线教程之外kd画图软件教程,还有一些非常好的入门书籍和书面教程:
步骤3:R语言核心->包
每个 R 包只是一组用于特定目的的代码,旨在供其他开发人员重复使用。除了主要代码库外,包通常还包括数据、文档和测试。作为 R 用户,您可以轻松下载特定包(有些甚至是预安装的)并开始使用其功能。每个人都可以开发 R 包并与他人共享。
这是一个非常强大的概念,也是 R 作为一种语言和社区如此成功的主要原因之一。也就是说,您不需要亲自编写所有核心硬件来了解特定算法或可视化的每个复杂细节。相关包成为该功能的接口,您可以轻松地开箱即用该功能。因此,了解 R 包的生态系统很有用。
许多 R 软件包可从综合 R 档案网络 (CRAN) 获取,并可使用 install.packages 函数进行安装。CRAN 的强大之处在于它通过任务视图将软件包与特定任务绑定。或者,您可以在 bioconductor、github 和 bitbucket 上找到 R 软件包。
如果您正在寻找特定的包及其文档,请尝试 Rdocumentation(),它允许您轻松地从 CRAN、github 和 bioconductor 搜索包。
步骤 4:帮助
您很快就会发现,您解决的每个 R 问题都会出现五个新问题。但幸运的是,有很多方法可以解决它们:
第 5 步:数据分析工作流程
一旦您了解了 R 的语法、它的包生态系统以及如何获得帮助,您就可以开始研究 R 如何解决数据分析工作中的日常任务。
5.1 导入数据
在开始执行数据分析之前,首先需要将数据导入 R。简单的部分是您可以将各种数据格式导入 R,但困难的部分是不同类型的数据通常需要不同的方法:
有关如何将数据导入 R 的更多信息,请查看在线将数据导入 R 教程() 和有关数据导入的这篇文章()。
5.2 数据操作
使用 R 进行数据处理是一个广泛的话题,例如,您可以观看使用 R 进行数据整理或使用 R 在 RStudio 中进行数据处理。以下是您应该获取的用于数据处理的 R 软件包列表:
5.3 数据可视化
R 之所以成为数据分析师和科学家最喜爱的分析工具,一个很重要的原因就是它的数据可视化功能非常强大。从 FlowingData() 上展示的所有可视化中可以看到,大量精美的图片都是使用 R 制作的。R 画出来的图到底有多美呢?咳咳,请参考这张著名的 Facebook 图片:Facebook 可视化。
用R制作的信用卡诈骗分析图表---包括事件发生的时间、地点和损失金额(见资源,)
如果您想使用 R 进行可视化,我建议您花时间学习 ggplot2。它是 R 中制作图形和图表的最流行软件包。ggplot2 使用图形语法的紧凑应用,因此非常直观(您可以继续构建图形的各个部分,就像玩乐高一样)。有许多资源可用于学习该软件包,例如交互式代码教程、Hadley Wickham 的备忘单和即将出版的书籍。
除了 ggplot2 之外,还有其他几个软件包可以帮助你创建更赏心悦目的图形,并且有许多优秀的学习资源可以帮助你快速掌握它们。我们选取了其中一些:
如果你想获得更多可视化包,请查看 CRAN Task View ()。如果你在绘制图表时遇到困难,这篇文章可能会有所帮助。除了那些“传统”的图像之外,R 还可以处理和可视化空间坐标数据。在静态地图上,空间坐标数据和模型可以通过 ggmap 等包更直观地呈现,这些包可以从 Google Maps Open Street Maps 获得。另一个推荐的包是 Trulia 的 Ari Lamstein 开发的 choroplethr,或者 tmap 包。如果你想了解更多,请参考这个教程:R 中空间数据可视化简介 ()。
5.4 统计
如果您是统计学新手,这里有一些很好的资源可以解释使用 R 时所需的基本概念:
请注意,这些资源适用于初学者。如果您想了解更多信息,可以查看各种使用 R 实现机器学习的资源。对于书籍,有《使用 R 掌握机器学习》()和《使用 R 进行机器学习》(),它们很好地解释了不同的概念。对于在线资源,有 Kaggle 机器学习()教程来实现不同的概念。
还有一些有趣的博客可以帮助您开始机器学习kd画图软件教程,例如机器学习精通()或这个()。
5.5 报告结果
无论是模型、可视化还是其他内容,共享的最佳方式是使用动态文档。R Markdown(基于 knitr 和 pandoc)是一款非常酷的工具,它以可重现的方式报告您的数据分析结果,并可以保存为各种格式:html、word、pdf、ioslides 等。以下是四个教程,讲解了 R markdown 的基础知识:使用 R Markdown 进行报告()。创建自己的 markdown 文件后,不要忘记此备忘单()。
第 6 步:成为 R 专家并探索新世界
R 是一种快速发展的语言。它在学术界和商界的受欢迎程度正在迅速增长,随之而来的是越来越多的新功能和软件包。以下是我们最喜欢的一些新技术和软件包:
一旦你有了使用 R 的经验,Hadley Wickham 的《高级 R》(免费书籍,)将帮助你将 R 技能提升到一个新的水平。或者,你可以在 Kaggle(一个用于数据挖掘和预测模型评估的网络平台)上与数据科学爱好者一起练习你的 R 技能。在那里,你将有机会处理有趣的数据,例如巨大的数据集()。
读了这么多,你准备好开始编写软件包了吗?玩得开心!