前阵子跟一个做AI的朋友聊天,他跟我吐槽,说现在训练一个大模型,光是数据标注这一块,就烧掉了几百万。我问他,这钱到底花在哪了?他说,你以为AI像人一样看一眼就学会了?其实背后是成千上万的人,一张图一张图地画框,一句话一句话地打标签。这些干活的“标注公司”,才是真正在幕后喂饱AI的“隐形人”。这让我想起前几年,还觉得AI是科幻片里的东西,现在回头一看,原来支撑它运转的,是这么朴实又琐碎的人力活。

说到标注公司,很多人第一反应是“血汗工厂”。确实,这行门槛低,不需要学历,会操作电脑就行。我认识一个河南的小伙子,去年在老家找了个标注的工作,每天对着屏幕,给路边的汽车、行人画框,一天画几百张,眼睛酸得不行。一个月下来,到手四五千块。他跟我说,这活枯燥是真枯燥,但至少不用风吹日晒,比在工厂流水线上强。而且他所在的标注公司,老板是从北京回来的程序员,搞了一套分层的任务系统:简单的框选给新手干,复杂的语义分割、3D点云标注就让老手来。这样一来,效率上去了,单价也能提一提。
但别以为标注公司就是纯体力活。我前阵子采访过一家专门做医疗影像标注的公司,他们的活儿可没那么简单。你得先找个有医学背景的团队,把CT片子里的病灶、血管、器官边界标得清清楚楚。这活儿不仅要求标注员懂解剖学,还得会用专门的软件,把像素级的细节抠出来。他们接的是三甲医院和AI医疗公司的单子,一张片子标下来,收费能上千。公司老板是个学医出身的创业者,他说,这行最怕的是“标不准”——一个像素点标错了,AI模型学出来的结论就可能把良性肿瘤判成恶性。所以他们的流程里,每张片子至少过三道手:一个人标,一个人审,还有一个专家复核。这哪是简单的“画框”,分明是在给AI当老师,教的还是人命关天的课。
现在这个行业,已经卷得不行了。我查了下数据,国内做标注的公司,注册的有上万家,但九成以上是几十人的小作坊。大一点的,像那些头部企业,能接到自动驾驶、智慧城市的大单子。但小公司怎么办?只能拼价格。我认识一个安徽的老板,他公司就二十来个人,常年接一些电商平台的图片标注单子。一张图,标出商品、价格、品牌,几毛钱一张。他跟我说,现在连印度、东南亚的标注公司都来抢单,价格还能压得更低。他唯一的优势是标注员能看懂中文,能理解“网红款”“限时秒杀”这种语境。但这点优势在成本压力面前,越来越薄了。
说到技术,不少人觉得AI以后会自己标注,标注公司迟早完蛋。这话只说对了一半。我见过有的公司已经开始用半自动标注工具:先用AI预标一遍,再让人工修正。比如自动驾驶场景里的路标、行人,AI能认出七八成,剩下的模糊、遮挡的情况就得人上手。这样一来,效率能提升三四倍,但人还是得在。还有个更极端的例子,有家公司专门做“数据清洗”,他们不是标新数据,而是帮客户把AI模型自己生成的“伪标签”纠错。这活儿听着高级,其实更累——你得判断AI有没有学歪、有没有学到偏见。比如AI把戴头巾的女性都标成“可疑人物”,这种错误模型自己发现不了,就得靠人一点点扒出来。
真正让我觉得有意思的,是标注公司正在慢慢“进化”成数据服务商。我认识一个在深圳创业的哥们,他公司最早就是做语音标注的——把录音转成文字,再标出语气、停顿、方言。干了三年,他把积累的标注数据整理成了几个垂直领域的“数据集”,比如针对广东话的语音库、针对医疗问诊的对话库。现在,他直接卖数据集给AI公司,一套能卖十几万。他还搞了个众包平台,把标注任务分发给全国的宝妈、大学生,用算法自动质检。这一套下来,毛利率从原来的20%提升到60%。他说,这行说白了,就是“数据搬运工”升级成了“数据精炼师”,关键看能不能在细节里淘出金子来。
不过,这行也有它的原罪,最典型的就是隐私泄露风险。我听说过一个案例,某家标注公司接了个手机相册分类的项目,标注员能在后台看到用户的家庭照片、聊天截图。虽然签了保密协议,但还是有人偷偷存下来发到网上。后来这家公司被客户起诉,赔得倾家荡产。现在,很多大客户都要求标注公司必须建封闭的物理机房,电脑不能联网,U盘不能插,甚至标注员上厕所都要交手机。这种“监狱式”的管理听起来不人道,却是行业生存的底线。毕竟,数据安全一旦出事,整个行业都会被连累。
说到底,标注公司是AI时代的“农民工”。他们干着最苦最累的活,拿着最微薄的利润,却为整个行业铺路。我有时候想,当我们在讨论大模型有多聪明、自动驾驶有多酷的时候,有多少人会想到那些画了一整天框、眼睛都快瞎了的标注员?他们可能不知道什么是Transformer,什么是Diffusion Model,但他们每一帧的标注,都在塑造AI的认知边界。这个行业不会消失,但一定会分化:低端、重复的标注会被工具和AI替代;而高端、需要专业知识和判断的标注会越来越值钱。就像那个做医疗影像的老板说的:“AI能学会看病,但得先有人教会它什么是病。”这话虽粗,却道理不假。
返回列表