随着企业发现越来越多的人工智能和机器学习用例,数据科学家发现自己正在密切关注自己的工作流程。人工智能和机器学习开发中有无数的变化部分,它们的管理都必须注重效率、灵活、强大的功能。现在的挑战是评估哪些工具提供哪些功能,以及如何通过其他解决方案增强各种工具以支持端到端工作流程。那么让我们看看这些领先工具可以做什么。
数字化VC
DVC 提供跨 ML 建模工作流程管理文本、图像、音频和视频文件的功能。
优点:它是开源的,并且具有可靠的数据管理能力。它提供自定义数据集丰富和偏差消除。它还可以在工作流程中的自然点快速记录数据变化。当您使用命令行时,整个过程感觉很快。 DVC 的管道功能与语言无关。
缺点:DVC 的 AI 工作流程功能有限——没有部署功能或编排。虽然管道设计在理论上看起来不错,但在实践中往往会出现问题。无法将对象存储的凭据设置为配置文件,并且没有 UI – 一切都必须通过代码完成。
ML流
MLflow 是一个开源工具,构建在 MLOps 平台上。
优点:因为它是开源的,所以很容易设置,并且只需要一次安装。它支持所有 ML 库、语言和代码,包括 R。该平台旨在为建模和生成 AI 工具提供端到端工作流程支持。它的用户界面感觉直观,并且易于理解和导航。
缺点:MLflow 的 AI 工作流程能力总体有限。没有编排功能、有限的数据管理和有限的部署功能。用户在组织工作和命名项目时必须勤奋——该工具不支持子文件夹。它可以跟踪参数,但不能跟踪所有代码更改——尽管 Git Commit 可以提供解决方法。用户通常会结合 MLflow 和 DVC 来强制记录数据更改。
权重和偏差
权重和偏差是主要用于 MLOP 的解决方案。该公司最近添加了一个用于开发生成式人工智能工具的解决方案。
优点:权重和偏差以最少的代码提供自动跟踪、版本控制和可视化。作为一个实验管理工具,它做得非常出色。其交互式可视化使实验分析变得容易。协作功能使团队能够有效地共享实验并收集反馈以改进未来的实验。它提供了强大的模型注册表管理,具有用于模型监控的仪表板以及重现任何模型检查点的能力。
缺点:权重和偏差不是开源的。它自己的平台内没有管道功能——用户需要转向 PyTorch 和 Kubernetes。其AI工作流能力,包括编排和调度功能,相当有限。虽然权重和偏差可以记录所有代码和代码更改,但该功能会同时产生不必要的安全风险并增加存储成本。权重和偏差缺乏精细管理计算资源的能力。对于细粒度任务,用户需要使用其他工具或系统对其进行增强。
泥浆
Slurm 承诺大规模的工作流程管理和优化。
优点:Slurm 是一个开源解决方案,具有强大且高度可扩展的调度工具,适用于大型计算集群和高性能计算 (HPC) 环境。它旨在优化资源密集型 AI、HPC 和 HTC(高吞吐量计算)任务的计算资源。它还提供有关多个用户所需资源的作业分析、预算和功耗的实时报告。它还提供客户支持以提供指导和故障排除。
缺点:调度是 Slurm 解决的人工智能工作流程的唯一部分。它需要大量的 Bash 脚本来构建自动化或管道。它无法为每个作业启动不同的环境,也无法验证所有数据连接和驱动程序是否有效。无法看到正在进行的 Slurm 集群。此外,其可扩展性是以用户对资源分配的控制为代价的。超出内存配额或花费太长时间的作业将在没有预先警告的情况下被终止。
清除ML
ClearML 在单个开源平台上提供整个 AI 工作流程的可扩展性和效率。
优点:ClearML 的平台旨在为 GenAI、LLMops 和 MLOps 大规模提供端到端工作流程解决方案。为了使解决方案真正被称为“端到端”,它必须能够支持具有不同需求的各种企业的工作流程。它必须能够取代用于 AI/ML 的多个独立工具,但仍然允许开发人员通过添加他们选择的其他工具来自定义其功能,ClearML 就是这样做的。 ClearML 还提供开箱即用的编排来支持调度、队列和 GPU 管理。
要在 ClearML 中开发和优化 AI 和 ML 模型,只需两行代码。与其他一些领先的工作流解决方案一样,ClearML 是开源的。与其他一些不同的是,ClearML 创建更改的审计跟踪,自动跟踪数据科学家很少考虑的元素(配置、设置等)并提供比较。其数据集功能管理与实验管理无缝连接。该平台还支持组织化、详细的数据管理、基于权限和角色的访问控制以及子实验的子目录,使监管更加高效。
ClearML 为数据团队带来的一项重要优势是其内置于平台中的安全措施。安全性不容懈怠,尤其是在优化工作流程以管理大量敏感数据时。对于开发人员来说,至关重要的是要相信他们的数据是私密且安全的,同时可供数据团队中需要这些数据的人员访问。
缺点:虽然由开发人员设计,但对于开发人员而言,有其优点,但 ClearML 的模型部署不是通过 UI 而是通过代码完成。跟踪和更新数据的命名约定在整个平台上可能不一致。例如,用户将“报告”参数和指标,但“注册”或“更新”模型。而且它不支持R,只支持Python。
总之,AI/ML 工作流程解决方案领域是一个拥挤的领域,而且只会从这里开始发展。考虑到团队的特定需求和资源,数据科学家今天应该花时间了解他们可以使用什么。
您可能还喜欢……
数据科学家和开发人员需要为人工智能建立更好的工作关系
如何在软件开发中最大限度地提高人工智能的投资回报率