No menu items!

    AI催生这个新岗位!时薪最高30元!

    人工智能产业发展催生了 ” 新流水线工人 “,时薪介于 10 元至 30 元之间,它时髦的新名字叫 “数据标注员 “。

    人工智能大模型给人们带来强烈的智慧冲击,令人惊叹于它前沿的神经网络研究、精密的计算机设备和光鲜亮丽的精英人才结构。然而,这种智慧背后还有极致枯燥的工作。

    近期,南方财经全媒体记者留意到,全国多地数据标注招聘市场火热、相关创业模式也不断涌现。提升数据质量成为人工智能开发商 “弯道超车 ” 的一记策略,但为相关劳动者提升工作价值,也是长远发展中不容忽视的问题。

    数据标注市场需求大增

    “10 元 -30 元 / 小时(与项目难度呈正相关,3D 类 > 语音类 >2D 类 >普通拉框转写类、打码类)。”4 月 13 日,南方财经全媒体记者在招聘 App”Boss 直聘 ” 上看到一则招聘广告中如是写道。在AI 产业中,这类岗位令人联想起电子厂的 ” 流水线 ” 工作。

    2023 年春天,市场的关注度被 ” 大模型 ” 吸走了一大半,但有一批公司正转移到 ” 数据端 ” 另辟蹊径,这是他们抓住这波AI 浪潮的机遇。

    算力、算法、数据,是人工智能的 ” 三驾马车 “。一位从事计算视觉的程序员告诉南方财经全媒体记者:”对某些公司而言,算力、算法提优,远远没有数据提优的效益大。”

    眼下,算力和算法的赛道上,头部公司最为耀眼。无论是微软、谷歌、OpenAI,还是华为、阿里、百度,对大模型斥下的资金成本令其他公司望尘莫及,购买芯片动辄上千万元,高薪聘请(或” 挖角 “)人才更不计代价。

    不过变革席卷全行业,” 幕后英雄 ” 也浮出水面。4 月初在复旦大学举行的一场研讨会上,计算机科学技术学院教授、MOSS系统负责人邱锡鹏提到,OpenAI 的成功不止来自大家津津乐道的模型、微软提供的昂贵算力,也得益于外包的专业数据清洗公司。

    美国某高校数据分析硕士专业毕业生李梦(化名)告诉南方财经全媒体记者,她目前正在一家生物医药公司实习,所做的工作正是优化数据标注程序。

    ” 大模型依赖数据训练,但要先做好数据采集、清洗、标注和质检。” 李梦介绍。

    数据标注领域知名学术人物李飞飞,在 2009 年发布了 ImageNet 数据集的论文,激起一场算法竞赛。依托 ImageNet海量得到标注的图片,算法公司展开了图像识别的竞赛,最低错误率者获胜。直到现在,很多人将 ImageNet视为本轮人工智能浪潮的催化剂。

    如今,数据标注依然如此重要,且有更大需求量。人工智能在哪个行业施展拳脚,就需要哪个行业给模型大量 ” 喂料”,这不局限于城市安防、物联网、交通、生物制药。

    数据标注的 ” 颗粒度 ” 也在提升。4 月 5 日,Meta 人工智能实验室发表了有关 Segment Anything这一计算视觉模型和数据集的论文。论文中提到,需要人工标记的图片高达 12 万张,平均每张图片有 44 个图层,每个图层的标注时间需要14 秒。总体计算之下,人工标注的时间需要 20533 个小时。如果聘用一个百人团队每天工作 9 个小时,这需要 23 天。

    枯燥无味的流水线工作

    ” 如果数据量太大,一般公司会雇外包公司承担。” 李梦向记者指出。外包公司将数据标注变成了算计件工分的一种工作。

    按照前述 Boss 直聘 App 上的广告,时薪价格依据工作内容不等。时薪能达到 30 元档的是指 3D类工作,一般是对实际场景中的特定事物进行标注,例如对一条道路上的雷达车道线、雷达目标拉框。接着是语音类,是指对音转文、方言转写、唤醒助手等进行标注。

    2D 类被认为更简单,是指对平面图像、文字段落进行标注,或者是OCR(文字识别)转写,例如对交通违规图片里的人和车、红绿灯、交通标示进行识别。

    价格最低的打码类,是指验证码里的计算题、哪些图片中含有火车这类工作。

    ” 数据标注十分枯燥无味,纯体力活,每标注 200 个就有一种想吐的感觉。”正在浙江某高校读研的小何对南方财经全媒体记者表示。

    以此谋生的数据标注师,工作强度可能更为难忍,除了需要耐心在电脑前面坐上几小时、耗尽眼力,可能还要面对原始数据里的限制级内容,涉及性、暴力、仇恨言论等。

    数据标注产业正在持续爆发。早在 2021年,人社部就发布了《人工智能训练师》国家职业技能标准,覆盖数据标注员、人工智能算法测试员两个工种,反映当时相关产业已经成势。这份标准将人工智能训练师分为5 个等级,从初级工到高级技师。

    数据标注看似 ” 无脑”,但却因实际落地需要而需要严谨的工作态度。比方说,如果对自动驾驶领域的标注缺乏质量把控,那么相关软件就无法令汽车安全地行驶在道路上。

    然而,围绕着数据标注员的低薪、长期伏案、内容重复和精神压力,社会舆论也正围绕着相关职业保护而发酵。如果无法改善数据标注师的工作环境、提升价值,这种职业的长久性仍令人存疑。

    市场前景看涨

    近期,南方财经全媒体记者从数个招聘渠道了解到,从北京、上海、广州到陕西榆林市清涧县、” 大数据之城 “贵阳市的惠水县百鸟河数字小镇,数据标注公司正在市场上急迫地发出招聘广告。与此对应的是,数据标识公司本身也被视为利益潜力大增的投资标的。

    记者发现,数据标识行业 ” 个体户 ” 正大量涌现。在百度贴吧上,大量项目正在召集所谓 ” 团队 “接标,从发帖内容可以看出,只要有一个相对固定人数、固定工作时长的团队,就可以接下大公司分发下来的项目标。有从业者介绍,刨去场地租赁、电脑和桌椅配置、每月水电费、人工开支,这种个体分包商赚取的是中间差价。

    不过,这个行业当然也正向着规模化、公司化的方向发展。行内有两种类型的公司,一种是大型互联网公司的内部部门、一种是外包公司。后者正成为资本市场上的” 香饽饽 “。

    2021 年登陆科创板的海天瑞声,今年股价从 1 月初的 60 元水平一度暴涨至超过 200元。该公司从事语音识别、语音合成、自然语言处理、计算机视觉等数据集技术开发。2022 年,该公司收入达到 2.63 亿元,和 2021年相比仅增长 27.3%,净利润则微跌 6.56% 至 2953 万元。尽管如此,按照 4 月 12 日收盘价每股 187元计算,该公司市值已经达到 80 亿元,动态市盈率为 326 倍。

    未上市的公司也获得了更多的资本青睐。2022 年 12 月,星尘数据完成 A 轮融资 5000 万元,相距上一次 2018 年6 月获得融资已经时隔 4 年半。这也反映,资本市场可能正重新关注这个新兴领域。

    ” 由于‘廉价劳动力’常常是数据标注公司的招牌,致使其无法获得足够的重视。”星尘数据在其官方一篇新闻稿中这样写道。该公司称,正通过自动化来提升标注效率。

    人工智能的飞轮滚动,数据还在海量增长。数据公司 Exploding Topics 的数据显示,2023 年全球新增数据或将达到120ZB,2025 年近一步达到 181ZB。其中,美国、德国、英国、中国是排名前四的数据产生大国。

    不过,业内正在争议 ” 以数据为中心的人工智能 ” 是否将取代 ” 以模型为中心的人工智能”。知名人工智能学者吴恩达(AndrewNg)是前一论点的持有者,他曾多次强调,有标注的高质量数据才能释放人工智能的价值,如果业界将更多精力放在数据质量上,人工智能的发展会更快。

    基于原始数据增长而产生的数据标注,因此也仍继续扩大,并将市场需求而价值波动。华经产业研究院在近期的一份报告中预测,到 2029年中国数据标注市场规模将达到 204.3 亿元。这和 2019 年的 43.3 亿元相比,增长了大约 3.7 倍。

    数据标注行业能否在未来去除 ” 人力工厂 ” 的标签,又将如何用自动化和技术手段提升数据策略、融入 AI更高阶的发展浪潮中?人们拭目以待。

    热点

    发表评论