发布信息

用户友好型的机器学习教程,哪怕你是没毕业的大学生

作者:软荐小编      2023-10-02 09:06:56     184

自学软件入门教程_ai软件教程自学网_自学的软件教程有哪些

作者|王家军

编辑| 小智

这是一个用户友好的机器学习教程。 即使你是一个还没毕业的大学生,或者是一个刚刚进入职场的码农,你也可以通过本教程自学机器学习并快速应用。 最重要的是这些教程是完全免费的。 唯一的痛点可能是:你的英语好吗?

注:本文转载自公众号第四范式。 “范式大学”由第四范式发起,致力于成为培养工程师转型为数据科学家的“黄埔军校”。 专栏重点关注利用人工智能解决特定业务问题。 在这里您将看到企业如何通过可实施的方法完成AI转型; 个人如何快速成为能够通过最新技术工具解决问题的机器学习工程师。

写在前面

我相信几乎每个读过这篇文章的人都想成为一名机器学习科学家。

事实上,绝大多数付费课程基本上在另一个地方都有完全免费的课程。 我们只是将这些信息放在一起,并告诉您在哪里可以找到它以及您可以按什么顺序学习它。

这样,即使你是尚未毕业的大学生,或者是刚刚步入职场的工程师,也可以通过自学掌握机器学习科学家的基本技能,并快速运用到论文中,工作,甚至日常生活。

这里我们推荐一个用户友好的机器学习教程。 您可以通过几个月的学习成为一名机器学习科学家,完全免费。

用户友好的机器学习教程

您在学习机器学习课程时是否曾因信息过载而不知所措?

大多数学习者都会遇到这个问题,这不是他们的错,因为绝大多数机器学习课程过于关注单个算法

是的,虽然算法很重要,但他们还是在上面花费了太多的时间。

以至于……你几乎很难在短时间内走完机器学习的过程,并感受到通过它解决特定数据问题的巨大兴奋。

这些机器学习课程侧重于算法,因为它很容易教授。 相比之下,如果机器学习老师想要带你走完整个机器学习过程,那么他需要搭建一个计算环境来完成数据采集、清洗、分割、特征处理、模型参数调整和模型预测。 他甚至需要为学习者提供一个交互式界面。 老师没有那么多工具。 与其牵着学生的手走路,还不如学习机器学习算法。

但问题是,很难有人通过自学坚持成为一名优秀的机器学习科学家。 即使拥有数学博士学位,或者是技术高超的程序员,也很容易陷入细节之中,很难有实现具体项目的成就感。

本教程将带来完全不同的想法。 非常适合自学者。 即使你完全没有编程基础,也可以通过合适的工具快速实现机器学习模型,解决工作和生活中遇到的具体问题。

值得注意的是,我们不花一分钱就可以获得世界顶级的机器学习资源。

自学方法

我们建议您通过“Doing Shit”(不是技术术语)来完成学习。

你可能以前学过机器学习,但从我和我朋友的经验来看,你常常被各种神秘的符号、公式以及大量的课本和论文搞得一头雾水,然后你就再也不想碰这个烦人的东西了再次。 东西。

我们的方法会更加友好,它的学习过程就像小孩子一样。 你会了解一些基础知识(但不一定完全理解),然后通过有用的工具快速实施。 而当你被建模的结果所吸引时,那么我们就来谈谈算法背后的数学逻辑和计算逻辑。

所以我们在学习中会做很多机器学习项目。 这样做的好处是,当你面临工作机会时,你将成为一名经验丰富的机器学习科学家!

当然,自学本身就需要自律。 本教程将永远陪伴您。 以下是4个步骤。

1.前提条件(无需完全理解)

统计、编程和数学(可能不需要编程)

2.海绵模式

沉浸在机器学习的各种理论中

3. 目标练习

使用机器学习包练习 9 个有趣的问题

4. 机器学习项目

深入参与感兴趣的项目和领域

第 1 步:先决条件

机器学习之所以看起来令人生畏,是因为它附带了一些晦涩难懂的术语。 其实,即使你是中文系毕业的,你也可以学好机器学习。 但是,我们要求您对某些领域有基本的了解。

好消息是,一旦满足先决条件,其余的就会很容易。 事实上,几乎所有机器学习都将统计学和计算机科学概念应用到数据领域。

任务:确保你了解基本的统计、编程和数学

统计:了解统计数据,尤其是贝叶斯概率,对于许多机器学习算法至关重要。

免费指南:如何以自学的方式学习数据科学统计学

编程:了解如何编程将使您能够更灵活地应用机器学习。

免费指南:如何以自学的方式学习 Python 进行数据科学

数学:原始算法的研究需要线性代数和多变量计算的基础。

免费指南:如何以自我启动的方式学习数据科学数学

您可以先看一下这些教程,为您的机器学习之路打下知识基础。

第 2 步:海绵模式

海绵模式就是尽可能多地吸收机器学习理论知识。

现在你们中的一些人可能会想:“如果我不打算进行原创研究,当我可以使用现有的机器学习包时,为什么我需要学习理论呢?”

这是一个合理的问题!

不过,如果你想更灵活地将机器学习应用到日常工作中,学习一些基础理论还是有好处的,而且不需要完全理解。 下面我们揭示了学习机器学习理论的 5 个理由。

(1) 规划与数据收集

数据收集是一个非常昂贵且耗时的过程! 那么我需要收集哪些类型的数据? 根据型号,我需要多少数据? 这个挑战可行吗?

(2)数据假设和预处理

不同的算法对数据输入做出不同的假设,那么我应该如何预处理我的数据? 我应该正规化吗? 如果我的模型缺少一些数据,它还会稳定吗? 如何处理异常值?

(3) 解释模型结果

简单地认为机器学习是一个“黑匣子”是错误的。 是的,并非所有结果都可以直接解释,但您需要诊断模型然后改进它们。 如何评估模型是否过拟合或欠拟合? 我如何向业务利益相关者解释这些结果? 该模型还有多大的改进空间?

(4)模型的改进和调整

您的第一次训练很少会是最佳的,您需要了解不同调整和正则化方法的细微差别。 如果我的模型过度拟合,我该如何补救? 我应该花更多时间在特征工程或数据收集上吗? 我可以组合我的模型吗?

(5) 驱动商业价值

机器学习永远不会在真空中完成。 如果您不了解您的工具库中的工具,您将无法最大限度地发挥它们的有效性。 这么多的结果指标中ai软件教程自学网,哪些是优化的参考指标? 哪个更重要? 或者还有其他性能更好的算法吗? 好消息是,您不需要从一开始就知道问题的所有答案。 因此,我们建议您首先学习足够的理论,然后快速付诸实践。 这种情况下,你更有可能坚持一段时间,并真正精通机器学习。

这里有一些免费的机器学习材料。

机器学习视频课程

这是哈佛大学和耶鲁大学的世界级课程。

任务:完成至少一门课程

哈佛大学数据科学课程

端到端数据科学课程。 它不像 Ng 的课程那样强调机器学习,但您可以在这里学习从数据收集到分析的整个数据科学工作流程。

课程主页:

斯坦福大学机器学习课程

这是吴恩达的著名课程。 这些视频解释了机器学习背后的核心思想。 如果您只有时间参加一堂课,我们推荐此课程。

课程主页:

机器学习参考资料

接下来给大家推荐两本业界经典教材。

任务:将这些 PDF 作为教科书查看

统计学习简介

Gentler在本书中介绍了统计学习的基本要素,适合所有机器学习学习者。

PDF地址:~gareth/ISL/ISLR%20Sixth%20Printing.pdf

统计学习的要素

它对机器学习理论和数学进行了严格的介绍,推荐给机器学习研究人员。

PDF地址:~tibs/ElemStatLearn/

成功的关键

以下是每一步成功的关键。

A:着眼于大局并始终问为什么

每当你听到一个新概念时,问“为什么”。 为什么在某些情况下使用决策树而不是回归? 为什么要标准化参数? 为什么要分割数据集? 当你理解为什么使用每个工具时ai软件教程自学网,你将成为一名真正的机器学习实践者。

B:承认你不会记住你学到的所有东西。

不要做疯狂的笔记或每课复习三遍。 在实际工作中,你经常需要回顾。

C:继续前进,不要灰心

尽量避免在一个话题上停留太久。 即使对于机器学习教授来说,有些概念也很难解释。 但当您开始在实践中应用它时,您很快就会理解这个概念的真正含义。

D:视频比课本更有效

根据我们的经验,教科书是很好的参考工具,但可能很难坚持下去。 我们强烈推荐视频讲座形式。

第三步:有目的地练习

海绵模式之后,我们将通过刻意练习磨练我们的技能,将我们的机器学习能力提升到一个新的水平。 目标包括三个方面:

完成这些步骤后,当您开始处理大型项目时,您不会感到不知所措。

机器学习工具

为了快速实现机器学习模型,我们建议使用现成的建模工具。 这样,您将在短时间内练习整个机器学习工作流程,而无需在任何一个步骤上花费太多时间。 这会给你非常宝贵的“大局直觉”。

Python:Scikit-Learn

Scikit-learn 和 Sklearn 是 Python 中通用机器学习的黄金标准库,它们具有传统算法的实现。

R:插入符

Caret 为 R 语言的模型包提供了统一的接口。 它还包括预处理、数据分割和模型评估功能,使其成为完整的端到端解决方案。

练习数据集

学习完工具后,您还需要一些数据集。 数据科学和机器学习的大部分艺术都在于解决问题的数十个微观决策。 我们将看到在不同数据集中建模的结果。

任务:从以下选项中选择 5 到 10 个数据集。 我们建议从 UCI 的机器学习库开始。 例如,您可以选择 3 个数据集,一组用于回归,一组用于分类,一组用于聚类。

在从事机器学习项目时,请考虑以下问题:

UCI 机器学习报告

UCI 机器学习报告收集了 350 多个不同的数据集,专门为机器学习提供训练数据。 您可以按任务(回归、分类或聚类)、行业或数据集大小进行搜索。

地址:

卡格尔

Kaggle.com 以举办数据科学竞赛而闻名,但该网站还拥有 180 多个社区数据集,涵盖有趣的主题,从用户 Pokemon 数据到欧洲足球比赛数据。

数据网

如果您正在寻找社会科学或政府相关的数据集,请查看 Data.gov。 这是美国政府开放数据集,您可以搜索超过 190,000 个数据集。

第四步:机器学习项目

好的,现在到了真正有趣的部分。 到目前为止,我们已经介绍了先决条件、基本理论和有目的的实践。 现在我们已准备好开展更大的项目。

此步骤的目标是将机器学习技术集成到完整的端到端分析中。

完成一个机器学习项目

任务:完成泰坦尼克号幸存者挑战。

泰坦尼克号幸存者预测挑战赛是一项非常流行的机器学习实践,事实上,它是 Kaggle.com 上最受欢迎的比赛。

我们喜欢使用这个项目作为起点,因为它有很多很棒的教程。 您可以了解这些经验丰富的数据科学家如何处理数据探索、特征工程和模型调整。

Python教程

我们非常喜欢本教程,因为它教您如何预处理和纠正数据。 教程由 Pycon UK 提供。

教程地址:

R教程

R 中使用 Caret 包来处理几种不同的模型。 本教程很好地总结了端到端预测建模过程。

教程地址:

这是一个“不负责任”的快速教程:只是一个教程,跳过了理论。 但这很有用,它展示了如何进行随机森林操作。

教程地址:

从头开始编写算法

为了更深入地了解机器学习,没有什么比从头开始编写算法更有帮助的了,因为细节决定成败。

我们建议从简单的东西开始,例如逻辑回归、决策树或 KNN 算法。

该项目还为您提供将数据语言翻译为编程语言的实践。 当您想将最新的学术研究应用到您的工作中时,这项技能会派上用场。

如果您遇到困难,这里有一些提示:

选择一个有趣的项目或领域

如果你没有好奇心,你就很难学好。 但到目前为止,也许您已经找到了想要坚持的领域,所以开始建模吧!

老实说,这是机器学习最好的部分。 它是一个强大的工具,一旦你开始理解它,你就会想到很多想法。

好消息是,如果您保持跟踪并准备好完成工作,您会得到比您想象的更多的东西!

我们还推荐了 6 个有趣的机器学习项目。

地址:

恭喜您完成了自学指南!

好消息是,如果您遵循并完成了所有任务,那么您将比 90% 自称数据科学家的人更擅长应用机器学习。

更好的消息是,你还有很多东西需要学习。 例如深度学习、强化学习、迁移学习、对抗生成模型等。

成为最好的机器学习科学家的关键是永远不要停止学习。 在这个充满活力和令人兴奋的领域开始您的旅程!

本教程由 EliteDataScience 提供。 我们已经翻译了本教程,并做了一些细微的修改。 这是原始链接:

想了解AI的行业应用吗?

7月深圳ArchSummit全球架构师峰会上,我们将以“创新智能应用”为主题,为大家带来几个垂直行业应用案例。

另外,我还想和大家聊聊Facebook、Airbnb、Uber、Yahoo!的架构实现和瓶颈突破。 和其他公司;

深度揭秘淘宝架构、手Q红包、百度AI等巨头产品的技术细节,

相关内容 查看全部