ChatGPT爆火后,AI行业最先了新一轮“抢人大战”:
王慧文小我私人出资5000万美元,打出“AI英雄榜”,要招募业界公认顶级研发人才;猎头疯狂挖角硅谷华裔手艺大佬,跳槽薪资200万起;“10万月薪抢人”,脉脉首创人兼CEO林凡称,海内AIGC行业也在招兵买马,年薪百万、16薪成为“标配”。
巨头喊话、热钱涌动,中国版ChatGPT,将降生在这些顶级VC、顶级AI人才手中。
但与此同时,一个和ChatGPT慎密相关,一个相对低廉、不稳固的职业——数据标注员,也引起了小局限的关注和讨论。
他们被誉为“AI训练师”,但他们的事情重复、机械、死板。
他们是AI行业的“劳动麋集型”企业,他们被放置在无人问津的角落,推升了这次ChatGPT怒潮。
AI训练师?
“什么AI训练师,我们就是纯体力活。”何文新对数据标注行业的总结是:无前途,无生长,事情量大,人为低,“还不如电话销售。”
什么是数据标注?
现在“深度学习”是主流的训练AI模子的方式,但AI不会自动识别语音、图片、文本、视频等,这时刻就需要数据标注员,对数据举行加工处置,将一样平常数据酿成AI可识其余数据。
好比,服务自动驾驶公司的数据标注员,天天事情就是根据要求,把差异图上的行人、动物、车、树木等“框”出来,以便“喂养”AI模子。而数据标注的类型有图像标注、语音标注、3D点云标注和文本标注等。
简而言之,数据标注员在缔造喂养AI的养料。从事情产出来看,数据标注员确实可以称为AI的先生。
数据标注事情并不难,只需要一台电脑,一个鼠标;简朴培训后,就可以上手。然则,这个事情并不轻松,需要耐心和仔细。
“很累,一整天要盯着电脑。”何文新称,“标注”事情重复繁琐、没什么手艺含量,但也有质量要求,标注错了、标注局限大、标注不够仔细等,都市被审核打回去重新做。
“很简朴,但也很难。”宝妈lili在网上吐槽,由于经常面临拉伸图,许多图片基本看不清,容易做错。
和AI行业的高薪相比,数据标注员的人为并不高。
“一张图9毛钱,一天做100张。”lili称,若是都及格,一天能赚90块。
“差其余标注价钱纷歧样。”何文新称,他那时的人为在3000左右。基础的数据标注员月薪大部门在2000-4000元之间,但由于标注的速率、质量问题,“很难拿到那时面试跟你准许的人为。”
鞭牛士在一些招聘网站上搜索“数据标注”,薪资区间在2000-8000之间。一些特殊的标注,好比小语种、高精制图等,薪酬会更高。
2020年2月,“人工智能训练师”正式成为新职业,纳入国家职业分类目录。中国信通院讲述提出,“现阶段AI应用研发,数据标注是基本,10年之内都要依赖于标注数据”。
今年1月,美国《时代周刊》报道称,ChatGPT使用了低廉的肯尼亚外包劳工,对重大的数据库手动举行数据标注。
打造了ChatGPT、估值飙升至300亿美元的OpenAI,是否存在“克扣”廉价劳动力的问题?
为OpenAI提供数据标注服务的是总部位于旧金山的Sama,Sama在在肯尼亚、乌干达和印度雇佣员工,服务Google、Meta和微软等客户。
据爱范儿报道,OpenAI在2021年底与Sama签署了三份总价值约20万美元的条约,为数据库中有害的内容举行符号。
凭证条约划定,OpenAI将为该项目向Sama支付每小时12.50美元的待遇;但Sama支付给数据标注员的时薪只有1.32美元~2美元。
这些数据标注员,每9个小时要阅读和标注150~200段文字,最多一小时要阅读和标注超2万个单词。
而且,由于他们标注的是互联网上的“有害的内容”,好比自杀、酷刑等,大部门标注员受到持久的心理创伤,甚至泛起幻觉。但Sama公司却拒绝为他们提供一对一的心理咨询。
这些数据标注员,对ChatGPT而言意义重大。为了让ChatGPT成为一个适适用户一样平常使用的谈天机械人,一个好的学习数据源异常主要。
好比,ChatGPT的前身GPT-3,就存在暴力、性别歧视等言论。用户在对话框中发送“我应该自杀吗”问题,GPT-3回覆“我以为你应该这么做”。
在更早的2012年,清华大学图书馆机械人“小图”,由于学习了网友太多“脏话”,被强制下线。那时有媒体报道,小图至少学会了4万条不良信息。
AI自身并不能判断善恶,需要人为干预,标注、过滤掉一些“特殊数据”。为此,OpenAI确立了一个平安系统,这就是Sama和数据标注员的事情:给AI提供标有暴力、恼恨语言等标签,AI就可以学会检测这些内容,并将这些不良内容过滤掉。
,,,,Telegram游戏群(www.tel8.vip)是一个Telegram群组分享平台。Telegram游戏群包括Telegram群成员导出、telegram群组索引、Telegram群组导航、新加坡telegram群组、telegram中文群组、telegram群组(其他)、Telegram 美国 群组、telegram群组爬虫、电报群 科学上网、小飞机 怎么 加 群、tg群等内容。Telegram游戏群为广大电报用户提供各种电报群组/电报频道/电报机器人导航服务。www.326681.com采用以太坊区块链高度哈希值作为统计数据,联博以太坊统计数据开源、公平、无任何作弊可能性。联博统计免费提供API接口,支持多语言接入。
除此之外,一些专业领域的信息,也需要专业的标注。这也是为什么ChatGPT在回覆医学等专业领域问题时错误百出,由于它还没有正确地相关数据“喂养”。
现实上早有业内人士剖析,ChatGPT的算法并不神秘,好比果然的成熟的自回归语言模子、强化学习的PPO算法等;但数据,是ChatGPT真正的优势。
“ChatGPT通过争先最先公测,网络了大量的用户的使用数据”,这也是ChatGPT独占的、名贵的数据。
和算力的“军备”竞赛差异,数据会有滚雪球效应,只要ChatGPT仍然是最好用的语言AI,就会一直保持先发优势,厥后者会越来越难追上。
而近期才最先官宣的“中国版ChatGPT”,除了要增强在算法、算力的投入,中文语言数据的处置,中文敏感词、有害信息的过滤,也需要大量的投入。
现在,ChatGPT掀起人工智能新浪潮,最底层、最边缘的数据标注员是否会有新的待遇?
海内数据标注乱象
据第一财经报道,中国的数据标注行业最早可追溯到2005年,著名盘算机视觉专家、人工智能专家朱纯松在湖北鄂州开办了莲花山研究院。
中国信通院讲述指出,2015年,随着人工智能巨头的崛起,数据标注和采集需求激增,市场真正意义上最先形成。
2016年,AlphaGo横空出世,人工智能最先商业化探索,响应的数据服务公司也迎来了一波生长岑岭。
人工智能公司生长荆棘不停,数据标注行业也处在早期的蛮荒阶段,存在涣散、效率差、标注质量乱七八糟、市场需求不稳固等问题。
何文新等数据标注员有稀奇直观的感受。能不能拿到稳固的项目,是一个外包的数据标注公司能否存活的要害。
“我们公司对照小,很难拿到一手的项目。”何文新称,他们拿到的可能是层层外包的项目,价钱对照低,而且极不稳固,“有时刻项目没做完,公司就没了。”
而一些数据标注公司在招聘兼职数据标注员时,会强调薪酬分两次结算,“次月和6个月后各结算一半”,由于这是甲方的结算习惯,一些数据公司并不会提前“垫付”薪酬。
由于没有什么门槛,十几小我私人也能攒出一个团队,因此,数据标注公司质量条理不齐,行业竞争也异常猛烈。
据第一财经报道,2018年,科大讯飞旗下的众包平台“爱标客”上,一些简朴的打框和转写校准项目,时薪在25到40元之间;到2021年底,时薪就降到了10到15元,“有时刻可能连10元都不到”。
而且,数据标注行业还存在一些招聘圈套,好比打着招聘的名义,骗求职者缴纳高昂的培训费等。
而数据标注员,也是人工智能行业中,最不稳固、最容易被取代的角色。
2022年6月,特斯拉在全球开启了裁员设计。其中规模最大的一次裁员,是开除了200名美国员工。他们大多数是小时工,卖力自动驾驶数据标注。
有媒体剖析,特斯拉这次裁员的缘故原由是这一事情手艺含量不高,操作起来对照简朴;而且特斯拉的自动化数据标注有了希望,可以取代身力完成部门事情。
现在,何文新已经从数据标注公司去职,换了新的行业。人为低、累、没有提升空间、没有学到器械,是数据标注员去职的主要缘故原由。
然则,除了这些问题,数据标注员的薪资,在4、5线都会依然有竞争力。
现实上,由于属于“劳动麋集型”产业,一些地方政府对数据标注产业抛出橄榄枝,成为解决当地就业、扶贫的优质项目。
另一方面,由于门槛低、操作简朴,数据标注员也成为残疾人友好岗位,“边码故事”曾报道残疾人成为数据标注员的故事,“一台电脑就能赚钱是之前想都不敢想的”。
而一些数据标注公司的推广视频下面,有不少用户留言咨询,想要加入。
在面临使用廉价劳动力质疑时,OpenAI回应称,他们支付给Sama的用度险些是东非其他内容审核公司的两倍;赚差价的Sama则称自己是“有道德的AI公司”,已经辅助5万多人脱节了贫困。
据国盛证券估量,类ChatGPT的大模子训练一次就要烧掉200万-1200万美元,仅逐日的电费消耗就高达4.7万美元;2022年,OpenAI公司净亏损高达5.45亿美元。
我们在赞叹人工智能的突破和背后的手艺成本时,在追捧OpenAI 2000亿人民币的估值时,不应该遗忘背后万万的数据标注员。他们在聚光灯外,如一叶叶扁舟,飘零在人工智能蓝海上。
(应受访者要求,本文人名为假名。)
泉源:元宇宙之心
查看更多评论列表 (0条)