组织正在陷入人工智能和生成式人工智能的炒作周期,但在很多情况下,他们没有执行人工智能项目所需的数据基础。三分之一的高管认为,其组织中只有不到 50% 的数据是可消耗的,并强调许多组织尚未为人工智能做好准备。
因此,在开始人工智能计划之前奠定正确的基础至关重要。在评估您的准备情况时,主要考虑以下因素:
人工智能强调垃圾输入、垃圾输出问题:如果你向人工智能模型输入的数据质量差、不准确或不相关,那么你的输出也会如此。这些项目涉及面太广,成本太高,而且风险太大,不能从错误的数据基础开始。
数据对人工智能的重要性
数据是人工智能的库存;它接受数据训练,然后出于设计目的处理数据。当您计划使用 AI 来帮助解决问题时,即使使用现有的大型语言模型,例如 ChatGPT 等生成式 AI 工具,您也需要为其提供适合您业务的正确上下文(即良好的数据、 )根据您的业务环境定制答案(例如检索增强生成)。这不仅仅是将数据转储到模型中的问题。
如果您正在构建新模型,您必须知道将使用哪些数据来训练和验证它。需要将这些数据分开,以便您可以针对数据集对其进行训练,然后针对不同的数据集进行验证并确定其是否有效。
建立正确数据基础的挑战
对于许多公司来说,了解他们的数据在哪里以及该数据的可用性是第一个重大挑战。如果您已经对数据有一定程度的了解(存在哪些数据、存在于哪些系统中、该数据的规则是什么等等),那么这是一个很好的起点。但事实是,许多公司没有这种程度的理解。
数据并不总是容易获得;它可能驻留在许多系统和孤岛中。特别是大公司往往拥有非常复杂的数据环境。他们没有一个单一的、精心策划的数据库,其中模型所需的所有内容都很好地组织在行和列中,他们可以在其中检索并使用它。
另一个挑战是数据不仅存在于许多不同的系统中,而且以许多不同的格式存在。有 SQL 数据库、NoSQL 数据库、图形数据库、数据湖,有时数据只能通过专有应用程序 API 访问。有结构化数据,也有非结构化数据。文件中有一些数据,也许有些数据来自工厂的实时传感器,等等。根据您所处的行业,您的数据可能来自多种不同的系统和格式。协调这些数据很困难;大多数组织没有工具或系统来做到这一点。
即使您可以找到数据并将其放入业务可以理解的一种通用格式(规范模型)中,现在您也必须考虑数据质量。数据杂乱;从远处看,它可能看起来不错,但当您仔细观察时,这些数据存在错误和重复,因为您是从多个系统获取数据,不一致是不可避免的。你不能向人工智能提供低质量的训练数据并期望得到高质量的结果。
如何奠定正确的基础:成功的三个步骤
人工智能项目基础的第一块砖是理解你的数据。您必须有能力阐明您的企业正在捕获哪些数据、它所在的系统、它的物理实现方式与业务的逻辑定义、它的业务规则是什么。
接下来,您必须能够评估您的数据。这归结为一个问题:“好的数据对我的业务意味着什么?”您需要定义什么是良好的质量,需要适当的规则来验证和清理它,以及在其生命周期内维护质量的策略。
如果您能够从异构系统获取规范模型中的数据,并努力提高质量,那么您仍然需要解决可扩展性问题。这是第三个基础步骤。许多模型需要大量数据来训练;您还需要大量数据来进行检索增强生成,这是一种使用从外部来源获得的信息来增强生成人工智能模型的技术,这些信息未包含在模型训练中。所有这些数据都在不断变化和发展。
您需要一种方法来创建正确的数据管道,该管道可以扩展以处理您可能输入的数据的负载和数量。最初,您因弄清楚从哪里获取数据、如何清理数据等问题而陷入困境,以至于您可能没有充分考虑到当您尝试使用不断变化的数据来扩展数据时,这将是多么具有挑战性。因此,您必须考虑使用什么平台来构建此项目,以便该平台能够扩展到您将带入其中的数据量。
为可信数据创建环境
在从事人工智能项目时,将数据视为事后的想法肯定会导致不良的业务成果。任何认真通过开发和使用人工智能来建立和维持业务优势的人都必须首先从数据开始。对用于业务目的的数据进行编目和准备的复杂性和挑战是一个巨大的问题,特别是因为时间至关重要。这就是为什么你没有时间做错事;帮助您维护高质量数据的平台和方法是基础。了解并评估您的数据,然后规划可扩展性,您将获得更好的业务成果。