发布信息

时间序列数据在物联网设备中的关键作用:Evan Kaplan 的见解

作者:软荐小编      2024-10-17 15:04:37     189

时间序列数据是智能汽车或医疗设备等物联网设备正常工作的重要组成部分,因为它是根据时间值收集测量值。

为了更多地了解时间序列数据在当今互联世界中发挥的关键作用,我们邀请 InfluxData 首席执行官 Evan Kaplan 加入我们的播客来谈论这个主题。

以下是该对话的编辑和删节版本:

什么是时间序列数据?

实际上很容易理解。基本上,您正在收集基于时间值的测量或仪器。最简单的思考方式是传感器、传感器分析或类似的东西。传感器可以测量压力、体积、温度、湿度、光线,并且通常记录为基于时间的测量值、时间戳(如果您愿意的话)每 30 秒、每分钟或每纳秒记录一次。这个想法是,您正在大规模地检测系统,因此您想要观察它们的性能。一是寻找异常情况,二是训练未来的人工智能模型和类似的东西。

因此,仪表工作通常是在时间序列基础上完成的。在过去的几年里,它可能是在通用数据库上完成的,但由于正在处理的数据量和实时性能要求,越来越多的专业数据库被建立起来。处理此类内容的专用数据库确实改变了系统架构师构建这些复杂的实时系统的游戏规则。

假设您的医疗设备中有一个传感器,正如您所说,它只是快速地传递数据。现在,它是在收集所有数据,还是只是标记出现的异常情况?

它既涉及动态数据,也涉及静态数据。所以它正在收集数据,我们支持一些每秒数十亿个点的应用程序——想想每 100 毫秒有数百或数千个传感器读取数据。我们在写入数据时查看数据,并且几乎可以立即查询它。时间几乎为零,但它是一个数据库,因此它存储数据,保存数据,并且能够对相同数据进行长期分析。

那么存储是一个大问题吗?如果所有这些数据都被丢弃,并且没有异常,您可能会收集数小时没有任何变化的数据?

如果您正在获取数据(一些受监管的行业要求您将这些数据保留很长一段时间),那么熟练地压缩数据就非常重要。能够提供对象存储格式也非常重要,这对于基于性能的系统来说并不容易,对吧?能够对其进行下采样也非常重要。下采样意味着我们每 10 毫秒进行一次测量,但每 20 分钟进行一次测量,我们想对此进行总结。我们想要对其进行下采样以查找 10 分钟或 20 分钟窗口中的信号。我们对其进行下采样并逐出大量数据,只保留摘要数据。所以你必须非常擅长这类事情。大多数数据库不擅长逐出或下采样,因此这是一组非常具体的技能,使其非常有用,不仅对我们,而且对我们的竞争对手也非常有用。

我们谈论的是边缘设备,现在人工智能也出现了。那么时间序列数据如何增强这些系统呢?从这些进步中受益?或者他们如何帮助推动事情进一步发展?

我认为这是非常基本的。时间序列数据的概念已经存在很长时间了。因此,如果您在 30 年前构建了一个系统,那么您很可能是在 Oracle、Informatics 或 IBM Db2 上构建的。典型的例子是华尔街的金融数据,您可以通过其中了解股票每一分钟、每一秒的交易情况。所以它已经存在了很长一段时间。但这个空间的新颖之处在于我们正在以令人难以置信的快节奏感知物理世界。你提到了医疗设备,但智能城市、公共交通、你的汽车、你的家、你的工业工厂,一切都被传感了——我知道这不是一个真正的词,但很容易理解。

因此传感器会讲时间序列。这是他们的通用语言。它们表示压力、体积、湿度、温度,以及您随时间测量的任何内容。事实证明,如果你想构建一个更智能的系统,一个智能系统,就必须从精密的仪器开始。所以我想拥有一辆非常好的自动驾驶汽车,所以我想拥有一张非常非常高分辨率的图片,显示汽车正在做什么以及汽车周围的环境在任何时候都在做什么。因此,我可以训练一个具有人类驾驶员或更好的驾驶员未来可能拥有的所有潜在意识的模型。为了做到这一点,我必须使用仪器。然后我必须观察,然后必须重新仪器,然后我必须观察。我将这个观察、纠正和重新检测的过程一遍又一遍地运行了 40 亿次。

那么在用例方面我们可能期待哪些事情呢?你现在提到了其中的一些,你知道,城市和汽车之类的东西。那么您认为这也可以进入哪些其他领域?

首先,我们真正强大的领域是能源、航空航天、金融交易、网络、遥测。我们最大的客户包括摩根大通 (JPMorgan Chase)、AT&T、Salesforce 等各种公司。所以这是一种水平能力,即仪器能力。

我认为我们这个领域真正重要且变得越来越重要的是时间序列数据在人工智能中扮演的角色,以及理解系统行为方式的重要性。本质上,你试图用人工智能做的是你试图说出训练你的模型时发生了什么,以及从你的模型中得到答案以及让你的系统表现得更好时会发生什么。

所以,“发生了什么事?”这是我们的通用语言,这是我们所做的一项基本工作,很好地了解了传感器周围发生的所有事情,收集高分辨率数据,然后将其输入到训练模型中,让人们在其中进行复杂的机器操作学习或机器人训练模型,然后根据该数据采取行动。因此,如果没有仪器数据,人工智能的东西基本上就没有基础部分,特别是现实世界的人工智能,不一定是指生成式法学硕士,但我说的是汽车、机器人、城市、工厂、医疗保健等的东西。

相关内容 查看全部