发布信息

宜君县阿娟的新职业:人工智能训练师,如何在深秋中处理近两千张图片

作者:软荐小编      2025-02-13 09:01:11     117

2020年11月,Yijun County在Loess Plateau和Guanzhong Plain以北的南部进入深秋。地球的黄色与枯树的灰色重叠,阿朱恩开始了她的新作品。

在一个只有大约20个人的小办公室中,她在计算机屏幕上标记了商店门的图片 - 如果太过曝光,则不能使用它,如果商店名称模糊不清,并且门门反射不能使用如果不使用它,可以使用。这些标记已完成的图片将用于AI学习,以帮助其识别商人在评论平台上上传的门头图片。这样的图片标签工作非常简单。精通后,Ajuan可以在十秒钟以上的时间内处理一个,并且每天可以“标记”近2000张照片。

这项无聊的工作有一个非常大声的名字 - “人工智能培训师”,这是一个新职业,在2020年2月被正式纳入国家职业类别。但是,在谈论数据标签时,在过去的两三年中,通常与诸如“低阈值”,“欠发达区域”和“劳动密集型”之类的术语约束。在过去的两三年中,从业者几乎不考虑自动驾驶和人工智能。了解您只需机械单击鼠标即可完成任务。

2023年之后,以Chatgpt代表的生成AI正在蓬勃发展,人工智能的发展进入了一个新阶段,数据标签的职业也发生了一些新的变化。

今年,“ 985 Master” Liu Daxian改变了他的职业生涯以进行数据标记,并且是一家主要的互联网制造商,每月薪水超过15,000元。与刘·达克斯安(Liu Daxian)在9:30上班后整天坐在工作站的县标记不同,他必须与产品和算法团队的数据培训需求联系起来,并回答数据标记团队提出的问题。大部分时间都花在大型和大尺寸上。小型沟通和讨论。

从本质上讲,刘·达克西安(Liu Daxian)和阿朱恩(Ajuan)的工作也没有什么不同。他们都是AI的人类老师。随着行业的变化,越来越多的高等教育年轻人(如刘·达克斯(Liu Daxian))选择成为AI培训师,但Ajuan和其他人担心数据标签工作的要求越来越高,他们会失去自己的。工作。

AI的“老师985”

刘·达克斯(Liu Daxian)的工作目标是教AI成为专家。

这就像抚养孩子。一开始,Ajuan和其他人教授AI最基本的知识,什么是鸟,什么是花,什么是汽车,以便AI可以理解最常用的单词。当涉及到通用模型时,就像AI上大学接受通识教育并掌握人类世界中的共同和全面知识一样。但是,如果AI想完成人工工作,它需要教授更多专业知识和技能。

培训专家并不容易。一方面,Liu Daxian需要与“员工”建立联系,在公司中,它是一个产品团队。 Liu Daxian知道他们想要什么样的才能以及满足什么要求,然后根据另一方的需求制定了培训计划,并选择适当的教科书,您还必须写一份评估纸并为AI的答题表进行评分。

AI学习的过程很长,工作量很大。它不仅仅是刘·达克西安(Liu Daxian)。她还需要制定标记的规则并“将”专业知识“转化为普通语言,因此没有理论知识的前线标记也可以很容易理解。在一定程度上,标签规则的可操作性是检查专家AI培训师的核心标准。

刘·达克西安(Liu Daxian)曾经收到过提高模型意图识别能力的需求。理想情况下,在与用户对话的数据标签团队进行了调整后,AI模型可以准确判断用户的输入意图是从某个领域获取信息还是寻求情感支持。

这样的意图判断过程接近人之间的沟通,并且具有强烈的主观性。如果将其直接移交给前线标记,则可以将其不同。如果导致模型训练偏差,则误差校正成本非常高。高度可操作的标签规则可以大大减少错误并提高数据质量。

为了满足需求,Liu Daxian首先需要澄清用户意图的类别并尽可能详细地列出它们,然后给出每个类别一个明确的定义,以阐明不同类别之间的边界在哪里。例如,如果用户说“我很伤心”,她将其写在注释规则中,该规则正在寻求情感支持。用户描述了生活中发生的快乐事情,她将定义为分享自己的个人生活。

了解自然语言互动中字符之间的细微差异是刘·达克斯(Liu Daxian)擅长的东西。她今年今年28岁,拥有985大学的语言学硕士学位。她在技术媒体上工作了一年。因为她厌倦了在媒体上工作24小时,所以她开始寻找将创作与技术(例如“ Feed AI””相结合的另一种可能性。

985硕士进厂做数据标注,自嘲像个「包工头」_985硕士进厂做数据标注,自嘲像个「包工头」_

这是改变职业的难得的机会。 Chatgpt的流行使生成AI和预培训模型的爆炸式增长。在模型的“堆积”培训训练之后,智力使该行业和外界感到惊讶。她看到了“有利”模型培训下的数据注释的重要性。她想进入这一潮流,并更接近尖端技术。

像Liu Daxian一样,进行数据注释的同事基本上具有硕士学位,并在公司内部分为运营职位。她的一些同事是为AGI的理想(通用人工智能)而来的,另一部分是主要的编辑和主要工厂的高收入。面对人工智能趋势,数据标签位置已成为少数非技术员工的职业跳板。

尽管工资不如预期的那样高,但与公司运营职位的其他同事相比,刘达克西安的薪水甚至更低。但是,与Ajuan的基本数据注释工作相比,高端注释(例如多模式对齐和知识图构造)的薪水可以达到2-3次,并且每月的薪水为20,000至30,000元。一些公司还从数据注释到产品,算法和其他职位的促销路径开放。

相应地,专家数据标记的要求越来越高。根据Liu Daxian的观察,大多数招募AI数据专家的学术要求是硕士学生,他们需要在相关专业领域(例如医疗保健,法律,财务等)积累。

甚至最基本的前线数据标记的门槛也在增加,大型模型公司下游的数据标记也将偏爱候选人是否毕业于211所大学。根据2023年8月的“科学与创新委员会日报”的报告,百度智能云Haikou标签基础的100%数据标记具有学士学位。

BAIDU数据注释外包公司提供的“ Wenxin Yiyan 2024书面测试问题”表明,在判断AI的答案是否准确时,申请人需要考虑答案是否符合客观事实,逻辑是否顺利,并给出相应的判断原因;申请人还需要修改一篇有800多个单词的辩论性文章 - 这已经与一位高中教师的工作相似。

毕竟,AI不再是学习语言的孩子。他们需要具有高等教育的老师,并且能力强大才能继续发展。

从框架到得分

Ajuan亲自经历了数据标签行业的变化。

作为链条末端的一线数据标记,在Ajuan的想象中,她也应该像Liu Daxian一样工作。她毕业于一所私立大学,是一个错误的入境。

在2020年,在朋友的引入下,阿朱恩(Ajuan)首次听说了“数据标记”的工作。她非常陌生,但她感觉很高。 “我认为这可能是一个像以前想象的那样(员工)的大工厂。)使键盘裂纹和crack啪作响具有黄金的价值的那种。”

只要您知道如何使用某些办公软件,当时的招聘要求很简单。以试用态度,阿朱恩(Ajuan)签约,并在通过培训考试后的那一年11月上班。与她一起加入公司的人们基本上是Yijun当地人,包括刚从技术中学毕业的儿童和年轻人的母亲。

985硕士进厂做数据标注,自嘲像个「包工头」__985硕士进厂做数据标注,自嘲像个「包工头」

最初的注释任务主要是图像,涉及各个领域,例如外卖,保险和医疗服务。给Ajuan留下深刻的印象是一个宠物鼻子图案项目。

许多宠物主人为宠物购买保险,鼻子模式是区分同一品种和相似外观的保险公司的关键。她和她的同事需要做的是将鼻子的鼻子部分构成宠物的照片,以帮助AI进一步识别鼻子图案。这个项目使Ajuan感受到了她作品的价值。她认为,这有助于宠物主人成功地确保宠物并要求保险公司的赔偿,尽管她的小县几乎没有人会保证宠物。

精通图像数据注释后,Ajuan接一个地接触了许多基于文本的项目。项目类型的变化很快,业务需求非常复杂。有时,合同文件在上周标记,下周将被医学纸数据提取。经理提供的项目,Ajuan和她的同事根据标签规格完成了该项目。当他们遇到问题时,他们提出了问题,讨论并解决了问题。大多数项目并没有给她留下深刻的印象,她很少对标签数据感到好奇。在哪里使用它。

经过将近两年的工作,Ajuan拥有越来越多的同事,她的原始小型办公室无法容纳她,有200多人进入了开放的办公楼。她显然认为这项任务的困难正在增加,公司的招聘教育要求已提高到大学或更高。他们开始以更丰富的形式和更复杂的标签规则进行项目。

在视频侵权项目的注释中,Ajuan需要判断给定关键字和视频内容之间的相关性。相关度通常根据百分比分为四个级别,100%完全相关,而0完全无关。她和她的团队成员需要根据标签规范对关键字和视频内容的理解进行一个一个一个逐个标记。这可以解决80%以上的任务,其余的20%可能有异议,并且需要与商业党举行会议进行讨论。

该项目变得越来越复杂,同事的工作能力越来越高,行业正在迅速变化,但是Ajuan及其同事不确定这些变化是如何发生的。对于他们在行业结束时,与AI模型有关的一切都发生在混乱中。

传统的注释依赖性规则,生成大型模型注释需要逻辑,例如注释推理步骤(因为a为b,但受C的限制)或需要理解,例如多模式对齐(文本和视频内容相关),例如由于任务要求标记具有抽象的思维能力和跨学科知识储备,而普通劳动者则没有能力。

无数的普通标记被一个又一个行业消除。

模型卷不移动,启动卷数据

Ajuan的工作内容和Liu Daxian切换到数据专家的机会的变化是相同的结果 - 如果大型模型公司想要生存,则必须打印出高质量的数据。

在2023年,大型模型公司招募了算法专家,并投资计算资源来培训模型,以比较其模型参数更大,更快的速度,并且可以在各种列表中排名最高。但是在比较之后,每个人都无法扩大差距。每个公司的模型都无法与生产力领域竞争,并且无法在短时间内收回培训成本。

到2024年,大型模特公司开始面临生死攸关的测试:在哪里赚钱?如何生存?如何在垂直方案中实现大型模型的商业化?一些领先的大型公司甚至放弃了预培训,转向应用程序开发,将资源投资于可以赚钱的事情。

一个共识是,为了在专业领域实施,高质量的垂直数据是竞争的核心。例如,医学场景中的图像识别要求临床医生在法律场景中标记合同条款,律师需要在条款中标记逻辑关系和司法解释。为了能够使用专业模型,您必须具有足够的准确的初始数据。这些数据很难从公共渠道获得,标签成本很高,但这是必须进行的投资。

受过良好教育的专家数据标记的人工成本远低于模型错误的成本:自动驾驶标记中有痕迹的行人可能会导致道路测试在百万公里处失败,并且间接测试成本可能为高达数千万。 ,法律合同的不正确标记可能会使公司进行诉讼。专业数据专家还可以显着提高标签效率。例如,医生对CT图像的识别率是普通标签者的几倍,也可以帮助优化数据收集策略。

985硕士进厂做数据标注,自嘲像个「包工头」__985硕士进厂做数据标注,自嘲像个「包工头」

目前,像刘·达克西安(Liu Daxian)一样,在垂直领域具有专业知识的AI培训师也变得流行。 “我们不是很容易找到普通人来标记垂直领域(模型数据),因此我们必须找到专业人士。例如,标记发音(模型),我们倾向于找到学习语言学的人,因为他们可以判断答案, “夏”说。

Xiaoqin曾在一家已上市公司工作,该公司已成立了十多年。该公司拥有许多成熟的AI产品,并围绕语音模型建立了自己的数据标签团队作为其核心业务。 2023年之后,标记任务将从客观的多项选择问题转变为阅读理解问题,并且早期标记规范和人为计算机一致性项目的制定将更加复杂。为了确保标记的一致性,他们可能会花半个月的时间研究标记规格,需要产品,算法,标记和评估团队参加。

今年,她的公司计划开发音乐模型,她面临的第一个问题是如何标记数据。他们发现,在将模型提供足够的数据后,该模型可以在一定程度上“紧急”和“创建”音乐,但是计算机专业人士的团队成员无法判断模型产生的音乐的质量,并且它很难找到优化方向。

不同的线就像不同的山脉。从语音模型到音乐模型,他们在注释与音乐有关的数据方面没有经验。因此,团队计划在音乐学校找到一名学生作为顾问学习。 Xiaoqin认为,只有音乐专业人士才能分辨模型产生的音乐是否合理,只有这样,他们才能知道要调整哪种节奏以及哪种乐器可以帮助模型产生更好的结果。

早些时候,她的公司投入了大量资金,并邀请许多专业录音工程师到录音室录制第一手声音数据。

Xiaoqin承认,无论是现在还是将来,真实的数据一直是无价的宝藏。只有累积在实际场景中生成的数据,我们才能制定更好的模型,而专家AI培训师获得真实数据。 “捷径”。

据Xinzhiyuan称,为了提高模型处理客户问题的能力,OpenAI向医学,法律,语言学,语言学,计算机科学,物理学等领域的专家提出了问题。至少300人,每个人每小时支付100美元。这个问题平均需要大约两个小时。 Scale AI,Turing和Invisible等公司还招募了经验丰富的程序员或博士学位,以帮助OpenAI,Google,Anthropic和XAI等公司在AI开发后培训阶段提高模型质量。

但是,这种“快捷方式”并不容易。为了确保工作质量,大型AI公司越来越多地将高质量的数据注释在内部进行,或者直接雇用专家而不是过去外包。数据是一个障碍,这是另一个燃钱的游戏。

教授AI后,他们要去哪里?

在过去的两三年中,在AI招聘市场中正在迅速扩展的泡沫,“ 985 Master”的数据注释只是IT的一个缩影。

艾米丽(Emily)是技术行业的猎头顾问,已经从事该行业多年。在过去的两三年中,他为许多AI公司招募了海外人才。在招聘方面,AI公司给她留下了深刻的印象 - 这些公司非常充满活力和激进,招募人员必须很小。

企业客户曾经告诉艾米丽(Emily),作为一家年轻的AI数字人公司,员工必须出生于1998年代,并且出生于1995年代,可能太“旧了”。这些公司还要求候选人具有足够的出色学习背景。 “有一所“ Tsinghua University和Peking University”在中国恢复外交关系,只有常春藤联盟在国外的学校,而211名令人尴尬。”

在生成AI的浪潮中,当招聘市场是最热门的时,AI初创公司的人力资源每天都会获得100多次恢复,并且没有时间阅读它们。候选人对艾米丽(Emily)说:“我认为这有点泡沫,我认为我们的公司似乎有点不稳定,因此您可以帮助我看到下半年的机会。”

刘·达克西安(Liu Daxian)也感到这种“不稳定”。自2024年以来,也许是因为该模型已经经历了“堆积”训练阶段,因此她看到她支持的模型团队减少了对数据注释的需求。实际上,当标签精度变得越来越高时,边际收益开始下降,并且长尾数据成本非常高,许多公司负担不起。

985硕士进厂做数据标注,自嘲像个「包工头」_985硕士进厂做数据标注,自嘲像个「包工头」_

她开始反思自己的职业生涯变革两年来的经历。

985硕士学位,主要制造商的正式编辑和AI趋势无法掩盖这项工作位于工业链下游的事实。与产品和算法团队相比,Liu Daxian几乎对他扮演的角色没有发言权。她甚至嘲笑自己是“承包商”。工作的“中层”性质要求她日复一日与各方进行交流和协调,“您将满足需求,您必须倾听算法的决定,聆听他们在生产中想要的内容然后进行研究,然后提供他们的主动性。她从工作中获得的有价值感变得越来越弱。

一名中学行业研究团队要求刘·达克西安(Liu Daxian)制定规则以提高模型的某些方面的能力,但是经过研究,她发现需要标记的数据的质量不够高,而且很难定义自然语言之间的模糊区域通过规则。她根据她的专业判断向制作和研究团队报告,但另一方只认为刘·达克西安(Liu Daxian)不够专业,因此她戴上了影响模型效果的“帽子”。

这种“责备”的经历使她感到非常疲倦。与同龄人交流时,她也感到“怨恨”。 “合作生产和研究团队的行为可能很高,并且有糟糕的工作经验,因为您是下游的角色。”刘达克西安说。

“数据标记在教授AI后应该做什么?”这是数据标记行业中每个从业者面临的困难问题,无论教育或专业如何。现在,随着人工智能变得更聪明,可以生成数据并单独训练数据,并且越来越不需要监督人类,而人工智能的人类老师最终将没有什么可教的。

刘·达克西安(Liu Daxian)已经开始寻找其他工作机会。她可以回到媒体行业并继续进行技术报道,但薪水差距使她犹豫了。像大多数AI培训师一样,可以切换到AI产品经理或操作,但是反复通信和拉动所消耗的能量需要一些时间才能恢复。

Ajuan还没有考虑过这个问题。经过八个月的工作,她被提升为小组负责人,到目前为止有18个团队成员。她需要对团队成员的准确性和效率负责,并进行更多的向上沟通工作,她的薪水也增加到每月超过4,000元。她住在一个县小镇,是一个“月光氏族”,她已经使自己感到非常高兴。

Ajuan的亲戚和朋友不知道她在做什么,因为她从未在下班时间谈论工作。这也是这个职业给她带来的幸福 - 她曾经是培训机构的英语老师,经常需要在周末给学生上一堂课,因此很难全面休息。完成数据标签工作后,她在正确的时间下班,完全分开了自己的生活和工作。

Ajuan计划在过去两年中花费更多的时间工作,并成为项目经理。

(应受访者,Ajuan,Liu Daxian,Xiaoqin和Emily的要求,本文都是假名。)

本文来自作者:Huang Yiting的微信公共帐户“ Jingxiang Studio”,由36KR出版。

相关内容 查看全部