今日实时汇率
1 美元(USD)=
7.178 人民币(CNY)
反向汇率:1 CNY = 0.1393 USD
更新时间:2025-07-11 03:00:01

来源:甲子光年
作者:朱悦
正式实习的第一天,晨曦感觉自己可能“被骗”了。
刚刚结束完学校的毕业论文,准研究生晨曦准备给自己找点事做。投递了几份简历之后,很快,国内某互联网大厂的人工智能编辑岗位(翻译方向)向她发出了邀请。
职位描述上写着:
1. 为人工智能机器学习提供优质的语料,复制模型训练迭代;
2. 与技术组对接需求,按时交付优质合格的数据,对编辑结果质量负责。
对于不了解模型训练的晨曦来说,这看上去似乎是一份相当不错的实习。
晨曦面试的是翻译方向,这与她所就读的英语专业十分契合;年初ChatGPT在国内爆火,晨曦日常就有使用AI产品的习惯,符合自己的兴趣爱好;另外,能有机会参与新兴的科技产业发展对于文科生来说可遇不可求;当然,最大的吸引力来自于这家互联网大厂。在过去几年内,这家公司已经成功吸引了无数年轻学生前仆后继。从某种角度来说,简历上的大厂名字足以成为自身能力的象征。
只是,除了招聘页面上简单的职位描述,晨曦没有从面试官那里获得关于这份实习更多的信息。
“我当时为什么觉得被骗,就是因为面试的时候HR基本都聚焦在翻译相关的问题。”在面试中做了几道翻译题之后,晨曦顺利拿到了offer。一直到工作之前,她都以为这是一份翻译的工作。
感到“被骗”的不止晨曦一人。
作为人工智能编辑最早的一批实习生,杨小云在2月底也来到了这家大厂。面试官表示,这是一份对信息抓取、语言概括和文字编辑等能力要求很高的工作。
实际上手之后她意识到:“HR描述的工作跟实操的工作,完全是两件事情。说得再天花乱坠,其实也是一个‘打标’的工作。”
如今,人工智能热潮带火了这些以假乱真的聊天机器人,以及通过简单提示就能生成图片的绘画软件。大模型的现象级出圈,使得数据、算法、算力作为训练大模型的基础而备受关注,数据标注就是数据环节必不可少的一部分。
2007年,时任普林斯顿大学计算机科学系的助理教授李飞飞开启了一个名为ImageNet的项目,希望扩展可用于训练AI算法的数据。
为了给每个单词提供尽可能多的视觉案例,亚马逊众包平台Mechanical Turk上的近5万名工人,花了两年半的时间标记出图片中的对象,例如气球、草莓等共计320万张图片。这些工人来自全球的167个国家,大多分布在人工成本低廉的地区。
《时代》杂志的一项调查发现,为了减少ChatGPT数据集中关于暴力、性别歧视和种族主义等内容,OpenAI使用了每小时收入不到2美元的肯尼亚劳工。《彭博社》报道,谷歌的AI聊天机器人Bard由数千名合同工训练,他们只有3分钟的时间来审阅、标注完Bard的回答。
在过去很长一段时间里,数据标注对语言与图像识别的认知要求都并不高。大模型时代,数据标注从图像转向语言,要求更高、更垂直,需要特定领域的专业知识和流畅的语言能力。
但对于普通的数据标注员来说,它依然是一份不断重复的低技术含量的工作。
正如同这些“被骗”的名校学生进大厂实习一样,他们没办法说清,自己的工作是为了实现什么样的目的,有什么价值。他们往往只有一个模糊的认识,为了“训练大模型”。
以晨曦和杨小云为代表的人工智能编辑实习生,便因为训练大模型的需要而诞生。这些受到热捧的大模型,让实习生们怀揣着好奇和憧憬进入,同时,也让他们感受到背后真实的混乱和价值感匮乏。
1.当大学生涌入大模型数据标注